今天在知乎中看到了一篇文章,讲的是金融的学生如何来获取数据。其中一种是花钱买数据,一种是使用网络爬虫在网络上抓取数据,还有一种是我最感兴趣的,从别人的图形中“提取”数据。 那么如何从图形中提取数据,这里介绍到(1)提取图形数据的利器:WebPlotDigitizer :http://arohatg....
分类:
Web程序 时间:
2015-07-26 23:52:49
阅读次数:
541
nutcher是中文的nutch文档,包含nutch的配置和源码解析,在github持续更新。
本教程由逼格DATA提供,未经允许,禁止转载。
可加入nutcher的bbs进行讨论:Nutch开发者
目录:
Nutch教程——导入Nutch工程,执行完整爬取
Nutch流程控制源码详解(bin/crawl中文注释版)
URLNormalizer源码详解(Nutch的URL正规化机制)...
分类:
编程语言 时间:
2015-07-25 15:17:22
阅读次数:
175
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un)。假设...
分类:
编程语言 时间:
2015-07-24 08:02:51
阅读次数:
182
1、语义化1、为了更好的让网络爬虫捕获你页面上的信息,更为高效的增加你网址的收录,加速搜索引擎的优化。2、见名知意,让程序员自己看见自己的标签名就等知道该段代码的作用。2、传统事件和现代事件的区别1、传统事件:优点:各种浏览器都兼容。缺点:不能一次添加多个事件,不能设置事件捕获。element.on...
分类:
Web程序 时间:
2015-07-12 23:14:11
阅读次数:
163
1、首先取一个初始网页,例如百度图片里面的网页(假设url为 http://image.baidu.com/channel/fashion );2、向image.baidu.com发送一个请求(GET /channel/fashion HTTP/1.1\r\nHost:image.baidu.com...
分类:
编程语言 时间:
2015-07-09 13:08:18
阅读次数:
119
Selenium 介绍 Selenium 提供了一种更为简便的网络爬虫技术,根据橘子目前的体验,Selenium具有以下特点: 开源,免费 简单,是一种OO方式,容易上手。 适应网络编码改变。相比urllib库,由于urllib趴出的网页是html格式,提取有用信息需要通过re进行过滤,网站代码若有...
分类:
其他好文 时间:
2015-07-07 19:10:25
阅读次数:
127
背景:原先的b/s设计中在一个jsp界面中实现多个复杂的工作流。。。为实现移动接口的调用保证工作流的正常web工程特别给提供了该虚拟浏览器的方案
原理:通过该方案实现虚拟浏览器后台执行jsp脚本,以达到我们要求
要求:
1、session保持,不然总会跳转到login界面
2、jsp脚本必须被执行,不能只是单纯的发起一个请求
先上
private String submitHandle...
分类:
Web程序 时间:
2015-07-07 09:40:01
阅读次数:
159
前几天,一位做健康类SEO优化的朋友叫我把网页上的文字和链接搞下来,所以就抱着试试的心态去搞搞,反正试了又不会怀孕。首先做这各你首先得要知道什么是DOM和懂一些javascript,关于这方面的教程就不在这里介绍了。可以看这里廖雪峰javascript教程 和W3CSchool
分类:
编程语言 时间:
2015-07-04 22:11:00
阅读次数:
250
TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。Maven引用坐标:?12345org.tinygrouptinyspider0.0.12网络爬虫,一般用在全文检索或内容获取上面。Tiny框架对此也做了有限的支持,虽然功能不多,但是想做全文检索或从网页上获取数据也是非...
分类:
其他好文 时间:
2015-07-01 11:28:41
阅读次数:
116
pcntl_fork或者swoole_process实现多进程并发。按照每个网页抓取耗时500ms,开200个进程,可以实现每秒400个页面的抓取。 curl实现页面抓取,设置cookie可以实现模拟登录 simple_html_dom 实现页面的解析和DOM处理...
分类:
Web程序 时间:
2015-06-26 13:39:25
阅读次数:
231