搜索关键字：爬虫框架，搜索到468个结果！码迷,mamicode.com！

一个简单的开源PHP爬虫框架『Phpfetcher』

好久不见了！我终于又写一篇日志了，本来有很多流水帐想发但是感觉没营养，就作罢了。今天我主要分享一个简单的PHP爬虫框架，名字叫：Phpfetcher 项目的地址是：https://github.com/fanfank/phpfetcher 这个框架的作者是：reetsee.xu，即吹水。把整个项目下载下来后，在Linux下的终端直接执行demo文件夹下的single_page.php即可看到效果。...

分类：Web程序时间：2014-11-02 01:58:09 阅读次数：358

网页爬虫框架jsoup介绍

序言：在不知道jsoup框架前，由于项目需求，需要定时抓取其他网站上的内容，便想到用HttpClient方式获取指定网站的内容，这种方法比较笨，就是通过url请求指定网站，根据指定网站返回文本解析。说白了HttpClient充当一下浏览器的角色，返回的文本需要自己处理，一般都是用string.indexOf或者string.subString方法处理。当有一天发现jsoup这个...

分类：Web程序时间：2014-10-23 00:11:44 阅读次数：181

java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，...

分类：编程语言时间：2014-10-17 02:11:54 阅读次数：306

python 批量下载美剧 from 人人影视 HR-HDTV

本人比较喜欢看美剧，尤其喜欢人人影视上HR-HDTV 的 1024 分辨率的高清双字美剧，这里写了一个脚本来批量获得指定美剧的所有 HR-HDTV 的 ed2k下载链接，并按照先后顺序写入到文本文件。这个 python 爬虫比较短，就用到了 urllib.request 和 re 这两个模块，前者负责抓取网页，后者负责解析文本。想进一步加强爬虫的功能，可以用爬虫框架 Scrapy。还有就是，网页内容多是 javascript 生成，就需要一个 js 引擎了，PyV8 可以拿来试试，再有就是基于 js 的爬虫...

分类：编程语言时间：2014-10-11 22:03:36 阅读次数：344

mac下使用scrapy时出现的raise DistributionNotFound(req)异常的处理方法

在os x下，安装完python爬虫框架scrapy后，使用scrapy startproject tutorial新建scrapy项目时，出现以下问题：Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....

分类：其他好文时间：2014-10-06 12:32:50 阅读次数：412

Scrapy爬虫 -- 01

Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结取结构化的数据。 --from wiki 说白了就是基于python的爬虫框架。安装： ubuntu 14.04 python2.7（python3不支持...

分类：其他好文时间：2014-10-02 14:32:53 阅读次数：141

CentOS下安装scrapy时lxml无法安装的解决办法

要在centos下安装一个python的爬虫框架scrapy，可是一直遇到lxml无法安装，报错为 error:?command?‘gcc‘?failed?with?exit?status?1 查找资料后在Stack Overflow找到解决方法 sudo?yum?install?-y?gcc...

分类：其他好文时间：2014-10-02 13:58:33 阅读次数：175

怎样用java编程抓取动态生成的网页

刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到了），很快holder.html和finance.html页面成功下载完成，然后解析完holder.html页面之后再解析finance.html，然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中，再去浏览器查看源码果然是这样的，在源码中确实没有我需要的数据，看来不是我程序写错了，接下来让人身心疲惫的事情来...

分类：编程语言时间：2014-09-22 20:02:53 阅读次数：301

用JAVA制作一个爬取商品信息的爬虫（爬取大众点评）

很多企业要求利用爬虫去爬取商品信息，但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架，而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的，只需要通过简单的转换既可。...

分类：编程语言时间：2014-09-22 15:47:02 阅读次数：4678

java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到.....

分类：编程语言时间：2014-09-22 02:43:01 阅读次数：301

共468条上一页 1 ... 44 45 46 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)