protocol buffers简介 protocol buffer是google的一个开源项目,它是用于结构化数据串行化的灵活、高效、自动的方法,例如XML,不过它比xml更小、更快、也更简单。你可以定义自己的数据结构,然后使用代码生成器生成的代码来读写这个数据结构。你甚至可以在无需重新部署程序的 ...
分类:
其他好文 时间:
2018-05-25 14:07:55
阅读次数:
196
一:Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取 的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类,所 ...
分类:
其他好文 时间:
2018-05-21 12:33:07
阅读次数:
190
专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。 这种实时搜索数据库做不了。 大量结构化、半结构化、非结构化文本类数据的实时搜索 信息检索(如电子图书馆、电子档案馆) 网页搜索 内容提供网站的内容搜索(如 新闻、论坛、博客网站) 电子商务网站的商品搜索 如果你负责的系统数据量大, ...
分类:
其他好文 时间:
2018-05-20 16:43:45
阅读次数:
181
Python读取jsonlines格式文件 json lines文件是一种便于存储结构化数据的格式,可以一次处理一条记录。可以用作日志文件或者其他。每条json数据之间存在一个"\n"分隔符。 具体信息可以查看http://jsonlines.org/ 之前爬虫存储数据,使用了这个格式文件,但是在读 ...
分类:
编程语言 时间:
2018-05-18 16:51:09
阅读次数:
3513
xml是一种可扩展标记语言,在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等。它可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言。 它非常适合万维网传输,提供统一的方法来描述和交换独立于应用程序或供应商的结构化数据 ...
分类:
Web程序 时间:
2018-05-18 00:24:04
阅读次数:
218
NoSQL简介 NoSQL,全名为Not Only SQL,指的是非关系型的数据库 随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来 优点/缺点 优点: 高可扩展性 分布式计算 低成本 架构的灵活性,半结构化数据 没有复杂的关系 缺点: 没有标准化 有限的查询功能(到目前为止) ...
分类:
其他好文 时间:
2018-05-15 10:46:41
阅读次数:
133
全文检索概述 数据形式 结构化数据 有固定格式或者固定长度的数据 如通常关系型数据库文件 检索方式:结构化查询语句SQL语句 非结构化数据 没有固定结构的数据,各种文档、图片、视频/音频等都属于非结构化数据。 查询方式:遍历, 全文检索 半结构化数据 半结构化数据是结构化数据的一种形式,它并不符合关 ...
分类:
Web程序 时间:
2018-05-11 00:09:25
阅读次数:
246
1.支持大数据的技术: 存储设备容量不断增加(1PB=1024TB) 计算,CPU处理能力不断提升 网络带宽不断增加 2.大数据特性:4V (1)大量化(volume) 大数据摩尔定律:数据一直一每年50%的速度增长 1ZB=1024EB,1EB=1024PB,1PB=1024TB 结构化数据/非结 ...
分类:
其他好文 时间:
2018-05-05 18:08:00
阅读次数:
324
线性回归时若数据不服从正态分布,会给线性回归的最小二乘估计系数的结果带来误差,所以需要对数据进行结构化转换。 常用数据转换方式为: P值比较 普通数据转化的局限性 对比Box-Cox变换公式和普通数据变换公式,发现Box-Cox只是在形式上又一定的改进。 确定λ的值 ...
分类:
其他好文 时间:
2018-05-05 11:15:45
阅读次数:
231
HDFS 体系结构 mapreduce 体系结构和算法 haddop 集群 zookeeper 操作;HBase 体系结构Hive /Sqoop 体系结构和基本操作; mapreduce 逻辑处理数据;HDFS 存放海量数据; 结构与非结构化数据structured data ( RDBMS ) & ...
分类:
其他好文 时间:
2018-05-04 19:31:14
阅读次数:
145