protocolbuffers[1]是google提供的一种将结构化数据进行序列化和反序列化的方法,其优点是语言中立,平台中立,可扩展性好,目前在google内部大量用于数据存储,通讯协议等方面。PB在功能上类似XML,但是序列化后的数据更小,解析更快,使用上更简单。用户只要按照proto语法在...
分类:
其他好文 时间:
2016-01-07 18:33:31
阅读次数:
508
protocol buffers[1]是google提供的一种将结构化数据进行序列化和反序列化的方法,其优点是语言中立,平台中立,可扩展性好,目前在google内部大量用于数据存储,通讯协议等方面。PB在功能上类似XML,但是序列化后的数据更小,解析更快,使用上更简单。用户只要按照proto语法在....
分类:
其他好文 时间:
2016-01-07 14:47:25
阅读次数:
199
Items爬取的主要目标就是从非结构性的数据源提取结构性数据,比如网页。 Scrapy提供Item类来满足这种需求。Item对象是种简单的容器。保存了爬取到得数据。 其提供了类似于词典(dictionary-like)的API以及用于声明可用字段的简单语法。声明ItemItem使用简单的class定...
分类:
其他好文 时间:
2016-01-07 08:51:11
阅读次数:
228
indexedDB是存储大量结构化数据的API,demo中用到的是异步API,麻烦的就是所有对indexedDB的操作都会发生一个异步的‘请求’,只要熟悉了API操作起来也很简单。http://www.cnblogs.com/haner/archive/2012/02/03/2337060.html...
分类:
数据库 时间:
2015-12-28 18:28:36
阅读次数:
226
2006年的OSDI有两篇google的论文,分别 是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统, 构建在GFS、Chubby、SSTable等google技术之上。相当多的google应用使用了Big...
分类:
其他好文 时间:
2015-12-28 00:43:30
阅读次数:
307
EMC收购视频存储设备厂商Isilon
Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资、大数据和HPC场景得到客户的一致认可,也在去年和另外一个产品线Povital
Hadoop推出了数据湖解决方案,应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需..
分类:
其他好文 时间:
2015-12-21 00:21:16
阅读次数:
287
时间序列是很重要的。时间序列(time series)数据是一种重要的结构化数据格式。时间序列的意义取决于具体的应用场景,主要有以下几种: 时间戳(timestamp),特定的时刻 固定时期(period),如2015年全年 时间间隔(interval),由起始和结束时间戳表示。就是说,时期可以是时...
分类:
编程语言 时间:
2015-12-17 20:56:58
阅读次数:
254
Neo4j是一个高性能的NOSQL图形数据库,它将结构化数据存储在网络上而不是表中,它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)而不是表中。Neo4j也可以被看做是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。
分类:
其他好文 时间:
2015-12-17 09:19:29
阅读次数:
1106
Neo4j是一个java开发的图数据库,它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。相对于关系数据库来说,图数据库善于处理大量复杂、互连接、低结构化的数据,这些数据变化迅速,需要频繁的查询——在关系数据库中,这些查询会导致大量的表连接,因此会产生性能上的问题。Neo4j重点解决了拥有大...
分类:
其他好文 时间:
2015-12-09 16:56:14
阅读次数:
307
hbase安装0. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理H....
分类:
系统相关 时间:
2015-12-01 16:22:15
阅读次数:
241