一直对爬虫耿耿于怀,今天总算是实现了,编写了一个Python Scrapy的爬虫获取果壳网首页的推荐文章。 打开果壳首页的一篇推荐文章,URL如下http://www.guokr.com/article/439791/可以看到果壳的文章都是在/article/下,并且所有文章是以6位数字表示,url...
分类:
其他好文 时间:
2015-02-15 14:54:46
阅读次数:
187
sock5实现单一代理入口,通过多IP随机出访,适用于各种爬虫、反防刷,节前最后一篇文章,废话少说,走起!!!软件下载cd/usr/local/src
wget"http://3proxy.ru/0.7.1.1/3proxy-0.7.1.1.tgz"
wget"http://nginx.org/download/nginx-1.4.4.tar.gz"
wget"https://github.com/yaow..
分类:
其他好文 时间:
2015-02-15 13:38:08
阅读次数:
223
环境:Python2.7.9 / Sublime Text 2 / Chrome1.url访问,直接调用urllib库函数即可import urllib2url='http://www.baidu.com/'response = urllib2.urlopen(url)html=response.r...
分类:
编程语言 时间:
2015-02-14 12:16:42
阅读次数:
5893
1.给自己一个强烈的目标(爬虫)2.大致了解这个目标如何实现3.安装环境(2.7.6)4.学习python基本概念和语法(3c学院)5.找一个该目标的类似的demo,跑起来玩一玩6.为了跑起来demo需要安装一些库(requests,bs4,html2text)7.为了装置库方便,找自动化的方法(p...
分类:
编程语言 时间:
2015-02-14 09:47:41
阅读次数:
190
主要问题集中在: ????1. 按调度周期进行调度,当需要调度的任务在 10 - 100 万级别的时候,好的调度模式非常重要; ? ? 2. 垂直爬虫的去重因为涉及范围不是很广,可使用 MD5 对 URL 进行判重; ? ? 3. 对...
分类:
其他好文 时间:
2015-02-13 16:47:05
阅读次数:
180
scrapy作为一个用python编写的网络爬虫,继承了python简单易用的特点,目前已经在很多项目中所使用。这里也是因为工作中的需要,把scrapy使用过程中的一些心得和遇到的问题记录下来以便加深记忆。scrapy安装的过程就不在这里详述了,大家安装都会碰到各种不同的问题,主要还是因为pytho...
分类:
其他好文 时间:
2015-02-12 19:53:39
阅读次数:
251
最先想试试python的爬虫功能,于是用easy_install安装了beautifulsoup,下面是我写的demo代码,可以简单看看
#coding=utf-8
import urllib2
from BeautifulSoup import BeautifulSoup as bs
url_addr = 'http://car.autohome.com.cn/baoyang/detail...
分类:
编程语言 时间:
2015-02-12 18:28:39
阅读次数:
208
此次的爬虫对象是:http://blog.csdn.net/sinyu890807的文章请务必理解:python的基础(http://www.cnblogs.com/courtier/p/4285897.html),urllib基本使用,了解http协议首先,为了不让服务器报403,我们必须设置个能...
分类:
其他好文 时间:
2015-02-12 00:36:18
阅读次数:
219
使用easy_install安装scrapy,报错error: Setup script exited with error: command 'gcc' failed with exit status 1查看报错信息发现尝试pip install lxml==3.3.0继续easy_install...
分类:
其他好文 时间:
2015-02-11 18:05:01
阅读次数:
191