本文由伯乐在线-木羊翻译,xianhu校稿。未经许可,禁止转载!英文出处:realpython.com。欢迎加入翻译小组。这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。...
分类:
数据库 时间:
2015-05-05 14:09:56
阅读次数:
207
http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html(转载地址)Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra...
分类:
其他好文 时间:
2015-05-04 11:28:59
阅读次数:
382
import scrapyfrom myproject.items import MyItemclass MySpider(scrapy.Spider):name = ’example.com’ allowed_domains = [’example.com’] start_urls = [ ...
分类:
其他好文 时间:
2015-05-03 20:27:36
阅读次数:
170
https://pypi.python.org/pypi/seleniumfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysbrowser = webdriver.Firefox()browser...
分类:
Web程序 时间:
2015-05-03 20:17:20
阅读次数:
1190
用户名是汉字,那么本菜鸟的解决办法是新建一个英文用户,安装Python2.7.9,然后返回原来的用户就可以用了。需要安装的东西太多,首先是Python2.7.9,如果pip此时没有同时被装上那么请做第一条。然后安装pywin32-219,然后是lxml,pyOpenSSL,哦,别忘了还有VCForPython27,手动下..
开始爬取网页:(2)写入源文件的爬取为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取。主要分为以下几个步骤:一.使用scrapy创建爬虫框架:二.修改并编写源代码,确定我们要爬取的网页及内容三.开始爬取并存入文件(数据库)注:为了避免冗长的叙述,更直观地理解,这里先讲具体的操作...
分类:
其他好文 时间:
2015-05-01 17:21:27
阅读次数:
147
lis = response.xpath("//ul/li")for li in lis: src = li.xpath("img/@src") # 如果xpath表达式是"//img/@src"会把整个页面的所有图片src提取出来 alt = li.xpath("img/@alt")
分类:
其他好文 时间:
2015-04-28 11:32:10
阅读次数:
127
利用爬虫,定时获取微博内容。用正则匹配指令#检测微博内容实现自动操作电脑#2015/3/16import osimport reimport urllib.requestimport timeclass sCrapy: def __init__(self,url): self.u...
分类:
编程语言 时间:
2015-04-27 13:12:17
阅读次数:
164
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的ope...
分类:
编程语言 时间:
2015-04-26 13:54:36
阅读次数:
295
Scrapy,一个网络爬虫的框架,首先第一步肯定是安装。参考网上的文章。安装过程中需要用到pip工具,请自行安装。1.安装python这个是必须的,既然都用到scrapy了,肯定已经安装了python,这个略过。2.安装pywin32下载地址:http://sourceforge.net/proje...