在os x下,安装完python爬虫框架scrapy后,使用scrapy startproject tutorial新建scrapy项目时,出现以下问题:Traceback (most recent call last): File "/usr/local/bin/scrapy", line 5,....
分类:
其他好文 时间:
2014-10-06 12:32:50
阅读次数:
412
最近想在网上抓取数据做研究,刚好会一点python,就让我们来看一种比较简单的实现方法。
比如我要抓取奥巴马每周的演讲内容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html,如果手动提取,就需要一个个点进去,再复制保存,非常麻烦。
那有没有一步到位的方法呢,用python这种强大的语言就能快速实现。...
分类:
编程语言 时间:
2014-10-02 19:45:23
阅读次数:
405
#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...
分类:
编程语言 时间:
2014-10-01 21:46:21
阅读次数:
273
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到。(不知道为什么???)目标是抓取前50页的爆乳图,代码如下:import urllib2,urllib,re,os'''http://www.dbmeizi.com/category/2?p=%'''...
分类:
数据库 时间:
2014-10-01 21:26:21
阅读次数:
312
$url?=?$_POST[‘url‘];
??$ch?=?curl_init();
??$timeout?=?5;
??curl_setopt?($ch,?CURLOPT_URL,?$url);
??curl_setopt?($ch,?CURLOPT_RETURNTRANSFER,?1);
??curl_setopt?($ch,?C...
分类:
Web程序 时间:
2014-09-28 15:26:53
阅读次数:
171
在使用python抓取网页图片的时候,偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候,就需要在请求中加入header信息,伪装成浏览器。如果你使用的是python3.4版本,那么如果你想在网上找到在请求中加入header的方法,估计要费些周折。经过一番实验,确...
分类:
编程语言 时间:
2014-09-24 18:32:07
阅读次数:
378
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:
编程语言 时间:
2014-09-22 02:43:01
阅读次数:
301
package parser;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamRead...
分类:
Web程序 时间:
2014-09-21 03:56:10
阅读次数:
211
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284