参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
所需工具1.Windows 7 32 Bit OS(你懂的)2.Apache Hadoop
2.2.0-bin(hadoop-2.2.0.tar.gz)3.Apache Hadoop
2.2.0-src(hadoop-2.2.0-src.tar.gz)3.JDK 1.74.Maven 3.2.1(a...
分类:
Windows程序 时间:
2014-04-28 08:33:25
阅读次数:
1187
SymmetricDS是一个开源的同步软件,该软件是基于java环境编写的,在运行的时候需要安装JDK。SymmetricDS可以同步文件和数据库,本文的重点是数据库方面的同步。SymmetricDS支持多种数据库的同步,支持的数据库如下:Oracle,
MySQL, MariaDB, Postgr...
分类:
数据库 时间:
2014-04-28 04:38:51
阅读次数:
959
oracle的optimizer会对一些sql语句进行查询转换,比如:合并视图子查询非嵌套化inlist转换下面讲讲遇到的in
list转化优化的案例:create table test(col1 varchar2(12)col2 numberext
varchar2(4000));creat...
分类:
数据库 时间:
2014-04-28 04:03:42
阅读次数:
853
《Introduction to Data Mining》 《Data Mining :
Concepts and Techniques》 《Introduction to Machine Learning》 《机器学习:实用案例解析》
《Pattern Recognition and Machin...
分类:
其他好文 时间:
2014-04-27 23:32:07
阅读次数:
526