网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络...
分类:
其他好文 时间:
2014-08-30 23:13:50
阅读次数:
434
update basplumain set dptid=1delete from basdept where id!=1insert into basdept (dptno,dptname)select dptno,dptname from lhflm update basdept set pid=...
分类:
其他好文 时间:
2014-08-30 17:40:09
阅读次数:
155
最近由于公司的自动化测试工具需要将测试结果导出到excel中,奈何没有学SSH,导致无法在工具本身中添加(工具是开发做的),故转而使用python爬虫来做,开发过程中遇到了一个问题: 由于测试结果太多,需要翻页,而翻页时网址没有变化,这就导致抓取的时候没法依照网址去爬,遂去网上查找解决方法,最后找....
分类:
编程语言 时间:
2014-08-30 11:07:39
阅读次数:
4116
第三章处理数据3.1简单变量 3.1.1变量名 C++标识符命名规则如下: ● 在名称中只能使用字母字符、数字和下划线 ●名称的第一个字符不能是数字 ● 区分大写字母和小写字母 ●不能将C++关键字用作名称 ●以两个下划线或下划线和大写字母开始的名称被保留给实现(编译器及...
分类:
其他好文 时间:
2014-08-28 22:27:06
阅读次数:
302
JAVA爬虫WebCollector教程列表
入门教程:
WebCollector入门教程(中文版)
用WebCollector对指定URL进行爬取和解析
JAVA爬虫Nutch、WebCollector的正则约束
实例:
用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
内核:
利用WebCollector爬虫...
分类:
编程语言 时间:
2014-08-28 14:52:39
阅读次数:
453
每种爬虫的正则约束系统都有一些区别,这里拿Nutch、WebCollector两家爬虫的正则系统做对比。爬虫爬取时,需要约束爬取的范围。基本所有的爬虫都是通过正则表达式来完成这个约束................
分类:
编程语言 时间:
2014-08-28 13:18:59
阅读次数:
569
bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的...
分类:
其他好文 时间:
2014-08-28 12:52:49
阅读次数:
159
Restful API现在非常的流行啊,目前工作的项目也使用了ASP.NETWebAPI技术。用下来的感觉是前台数据的展现层可以和后台数据的处理层解耦性很好。所以在开发阶段,前台数据展现页面布局和后台数据处理调整起来都很方便。Restful API利用了http协议,配合一些类似backbone.....
AWKAWK是一种用于处理文本的编程语言工具。它是Linux中也是任何环境中现有的功能最强大的数据处理引擎之一。基本语法awk[options]‘program‘filefile...awk[options]‘PATTERN{action}‘filefile...-FCHAR:定义输入分隔符1、awk的输出(1)各项目之间使用逗号分隔,而输出时则使用..
分类:
其他好文 时间:
2014-08-27 18:57:18
阅读次数:
367
最近实验室项目涉及到很多爬虫相关的东西,在此做个整理,爬虫最难的问题应该是javascript和ajax的处理。现在很多网站使用大量ajax,普通爬虫无法获取js生成的内容。 对于普通的静态网页,HttpClient是Java中抓取网页的利器,然而针对像京东商品页面这样的页面却无能为力,例如:htt...
分类:
编程语言 时间:
2014-08-27 18:05:08
阅读次数:
1308