码迷,mamicode.com
首页 >  
搜索关键字:爬虫框架    ( 468个结果
一个简单的开源PHP爬虫框架『Phpfetcher』
好久不见了!我终于又写一篇日志了,本来有很多流水帐想发但是感觉没营养,就作罢了。 今天我主要分享一个简单的PHP爬虫框架,名字叫:Phpfetcher 项目的地址是:https://github.com/fanfank/phpfetcher 这个框架的作者是:reetsee.xu,即吹水。 把整个项目下载下来后,在Linux下的终端直接执行demo文件夹下的single_page.php即可看到效果。...
分类:Web程序   时间:2014-11-02 01:58:09    阅读次数:358
网页爬虫框架jsoup介绍
序言:在不知道jsoup框架前,由于项目需求,需要定时抓取其他网站上的内容,便想到用HttpClient方式获取指定网站的内容,这种方法比较笨,就是通过url请求指定网站,根据指定网站返回文本解析。说白了HttpClient充当一下浏览器的角色,返回的文本需要自己处理,一般都是用string.indexOf或者string.subString方法处理。         当有一天发现jsoup这个...
分类:Web程序   时间:2014-10-23 00:11:44    阅读次数:181
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:编程语言   时间:2014-10-17 02:11:54    阅读次数:306
python 批量下载美剧 from 人人影视 HR-HDTV
本人比较喜欢看美剧,尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧,这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接,并按照先后顺序写入到文本文件。这个 python 爬虫比较短,就用到了 urllib.request 和 re 这两个模块,前者负责抓取网页,后者负责解析文本。想进一步加强爬虫的功能,可以用爬虫框架 Scrapy。还有就是,网页内容多是 javascript 生成,就需要一个 js 引擎了,PyV8 可以拿来试试,再有就是基于 js 的爬虫...
分类:编程语言   时间:2014-10-11 22:03:36    阅读次数:344
mac下使用scrapy时出现的raise DistributionNotFound(req)异常的处理方法
在os x下,安装完python爬虫框架scrapy后,使用scrapy startproject tutorial新建scrapy项目时,出现以下问题:Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....
分类:其他好文   时间:2014-10-06 12:32:50    阅读次数:412
Scrapy爬虫 -- 01
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结取结构化的数据。 --from wiki 说白了就是基于python的爬虫框架。 安装: ubuntu 14.04 python2.7(python3不支持...
分类:其他好文   时间:2014-10-02 14:32:53    阅读次数:141
CentOS下安装scrapy时lxml无法安装的解决办法
要在centos下安装一个python的爬虫框架scrapy,可是一直遇到lxml无法安装,报错为 error:?command?‘gcc‘?failed?with?exit?status?1 查找资料后在Stack Overflow找到解决方法 sudo?yum?install?-y?gcc...
分类:其他好文   时间:2014-10-02 13:58:33    阅读次数:175
怎样用java编程抓取动态生成的网页
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:编程语言   时间:2014-09-22 20:02:53    阅读次数:301
用JAVA制作一个爬取商品信息的爬虫(爬取大众点评)
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:编程语言   时间:2014-09-22 15:47:02    阅读次数:4678
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:编程语言   时间:2014-09-22 02:43:01    阅读次数:301
468条   上一页 1 ... 44 45 46 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!