Spider类定义了如何爬取某个网站。包括爬取的动作以及如何从网页的内容中提取结构化数据。
Spider就是定义爬取的动作及分析某个网页的地方。爬取的循环:①以初始的URL初始化Request,并设置回调函数。当该request下载完毕并返回时,将生成response,并作为参数传给该回调函数。
spider中初始的request是通过调用start_requests()来获取的。start_r...
分类:
其他好文 时间:
2015-06-02 09:29:28
阅读次数:
440
数据采集和DataFlow对于数据采集主要分为三类,即结构化数据库采集,日志和文件采集,网页采集。对于结构化数据库,采用Sqoop是合适的,可以实现结构化数据库中数据并行批量入库到hdfs存储。对于网页采集,前端可以采用Nutch,全文检索采用lucense,而实际数据存储最好是入库到Hbase数据...
分类:
其他好文 时间:
2015-05-30 07:01:49
阅读次数:
205
在这个结构化数据和非结构化数据的数量都很庞大的年代,经常需要从数据库、XML/HTML 文件或其他数据源导入数据,并使数据可搜索。过去,要编写自定义代码才能创建到数据库、文件系统或 RSS 提要的自定义连接。但现在,Solr 的DataImportHandler(DIH)填补了这个空白,它使您能够从...
分类:
其他好文 时间:
2015-05-28 15:33:45
阅读次数:
139
在Android平台下有各种不同方法可以实现应用程序数据的存储和管理(SharedPerferences,File,SQLiteDatabase,网络存储),方法的选择依赖于需要存储的数据类型和数据结构。SQLite数据库能够安全而有效地解决结构化数据的存储问题;
这里主要介绍SQLite相关的用法,以及对数据库常见操作的封装。...
分类:
移动开发 时间:
2015-05-27 17:23:17
阅读次数:
272
前言: 2004年,IBM在13th USENIXSecurity Symposium上发表文章《Design and Implementation of a TCG-based Integrity MeasurementArchitecture》,第一次提出了IMA架构。该架构通过在内核中进行patch,实现当应用程序运行、动态链接库加载、内核模块加载时,将用到的代码和关键数据(如配置文件和结构化数据)做一次度量,将度量结果扩展到PCR10,并创建与维护一个度量列表ML。当挑战者发起挑战时,将度量列表与T...
分类:
其他好文 时间:
2015-05-27 15:56:35
阅读次数:
2939
在一般的结构化数据库中,一般去找一个字段的匹配,使用最多的就是like语句。这种情况下,就像在小时候妈妈给我买的新华字典里去一页页翻出自己的名字一样,效率相对的底下,较为快速的的方式是什么呢?就是通过新华字典的前面的索引来取找,而全文索引就是做的这样的一个工作。为你需要查找的"数据源"做各种的分析索引文件。这里的数据源可以是txt文件,图片文件等结构化的文件。而lucene是全文索引中比较优秀的第...
分类:
Web程序 时间:
2015-05-26 16:09:58
阅读次数:
145
Google Protocol Buffer(protobuf)是一种高效且格式可扩展的编码结构化数据的方法。和JSON不同,protobuf支持混合二进制数据,它还有先进的和可扩展的模式支持。protobuf已在大多数软件平台上实现,包括适用于Android的精简Java版。
http://developers.google.com/protocol-buffers/上有protobuf文档,...
分类:
其他好文 时间:
2015-05-22 13:31:26
阅读次数:
153
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙 spark sql 三个核心部分: 1. 可以加载各种结构化数据源(e.g., JSON, Hive, and?Parquet). 2. ?可以让你通过SQL ,spark ...
分类:
数据库 时间:
2015-05-19 15:07:52
阅读次数:
369
OK !好久不见,大家都忙着各自的事情,me too, 博客也好久木有更新了,因为一直比较忙
spark sql 三个核心部分:
1. 可以加载各种结构化数据源(e.g., JSON, Hive, and Parquet).
2. 可以让你通过SQL ,spark 内部程序或者外部工具,通过标准的数据库连接(JDBC/ODBC)连接spark,比如一个商业智能的工具Tableau
3.当...
分类:
数据库 时间:
2015-05-19 14:49:14
阅读次数:
297
一、总论
根据http://lucene.apache.org/java/docs/index.html定义:
Lucene是一个高效的,基于Java的全文检索库。
所以在了解Lucene之前要费一番工夫了解一下全文检索。
那么什么叫做全文检索呢?这要从我们生活中的数据说起。
我们生活中的数据总体分为两种:结构化数据和非结构化数据。
结构化数据:指具有固定格式或有限长度的数据,如数...
分类:
Web程序 时间:
2015-05-15 12:09:01
阅读次数:
116