码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 抓取数据    ( 2655个结果
mac下使用scrapy时出现的raise DistributionNotFound(req)异常的处理方法
在os x下,安装完python爬虫框架scrapy后,使用scrapy startproject tutorial新建scrapy项目时,出现以下问题:Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....
分类:其他好文   时间:2014-10-06 12:32:50    阅读次数:412
python抓取网页内容
最近想在网上抓取数据做研究,刚好会一点python,就让我们来看一种比较简单的实现方法。 比如我要抓取奥巴马每周的演讲内容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html,如果手动提取,就需要一个个点进去,再复制保存,非常麻烦。 那有没有一步到位的方法呢,用python这种强大的语言就能快速实现。...
分类:编程语言   时间:2014-10-02 19:45:23    阅读次数:405
python爬虫_某桌面壁纸网站所有图片
#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...
分类:编程语言   时间:2014-10-01 21:46:21    阅读次数:273
一个简单的python爬虫,以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到。(不知道为什么???)目标是抓取前50页的爆乳图,代码如下:import urllib2,urllib,re,os'''http://www.dbmeizi.com/category/2?p=%'''...
分类:数据库   时间:2014-10-01 21:26:21    阅读次数:312
php抓取数据
$url?=?$_POST[‘url‘]; ??$ch?=?curl_init(); ??$timeout?=?5; ??curl_setopt?($ch,?CURLOPT_URL,?$url); ??curl_setopt?($ch,?CURLOPT_RETURNTRANSFER,?1); ??curl_setopt?($ch,?C...
分类:Web程序   时间:2014-09-28 15:26:53    阅读次数:171
python 3.4 爬虫,伪装浏览器(403 Forbidden)
在使用python抓取网页图片的时候,偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候,就需要在请求中加入header信息,伪装成浏览器。如果你使用的是python3.4版本,那么如果你想在网上找到在请求中加入header的方法,估计要费些周折。经过一番实验,确...
分类:编程语言   时间:2014-09-24 18:32:07    阅读次数:378
java抓取动态生成的网页--吐槽
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:编程语言   时间:2014-09-22 02:43:01    阅读次数:301
htmlparser实现从网页上抓取数据
package parser;   import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamRead...
分类:Web程序   时间:2014-09-21 03:56:10    阅读次数:211
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。 为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。 由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:编程语言   时间:2014-09-19 13:57:15    阅读次数:284
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!