码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
Python下用Scrapy和MongoDB构建爬虫系统(1)
本文由伯乐在线-木羊翻译,xianhu校稿。未经许可,禁止转载!英文出处:realpython.com。欢迎加入翻译小组。这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。...
分类:数据库   时间:2015-05-05 14:09:56    阅读次数:207
scapy安装
http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html(转载地址)Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra...
分类:其他好文   时间:2015-05-04 11:28:59    阅读次数:382
scrapy yield Request
import scrapyfrom myproject.items import MyItemclass MySpider(scrapy.Spider):name = ’example.com’ allowed_domains = [’example.com’] start_urls = [ ...
分类:其他好文   时间:2015-05-03 20:27:36    阅读次数:170
use selenium in scrapy webdriver
https://pypi.python.org/pypi/seleniumfrom selenium import webdriverfrom selenium.webdriver.common.keys import Keysbrowser = webdriver.Firefox()browser...
分类:Web程序   时间:2015-05-03 20:17:20    阅读次数:1190
windows安装Scrapy出现的各种问题
用户名是汉字,那么本菜鸟的解决办法是新建一个英文用户,安装Python2.7.9,然后返回原来的用户就可以用了。需要安装的东西太多,首先是Python2.7.9,如果pip此时没有同时被装上那么请做第一条。然后安装pywin32-219,然后是lxml,pyOpenSSL,哦,别忘了还有VCForPython27,手动下..
分类:Windows程序   时间:2015-05-01 20:05:59    阅读次数:163
从零开始学爬虫(三)------写入源文件的爬取
开始爬取网页:(2)写入源文件的爬取为了使代码易于修改,更清晰高效的爬取网页,我们将代码写入源文件进行爬取。主要分为以下几个步骤:一.使用scrapy创建爬虫框架:二.修改并编写源代码,确定我们要爬取的网页及内容三.开始爬取并存入文件(数据库)注:为了避免冗长的叙述,更直观地理解,这里先讲具体的操作...
分类:其他好文   时间:2015-05-01 17:21:27    阅读次数:147
scrapy xpath 从response中获取li,然后再获取li中img的src
lis = response.xpath("//ul/li")for li in lis: src = li.xpath("img/@src") # 如果xpath表达式是"//img/@src"会把整个页面的所有图片src提取出来 alt = li.xpath("img/@alt")
分类:其他好文   时间:2015-04-28 11:32:10    阅读次数:127
Python实现利用微博远程关机
利用爬虫,定时获取微博内容。用正则匹配指令#检测微博内容实现自动操作电脑#2015/3/16import osimport reimport urllib.requestimport timeclass sCrapy: def __init__(self,url): self.u...
分类:编程语言   时间:2015-04-27 13:12:17    阅读次数:164
[python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。 由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法: 直接使用urllib自带的ope...
分类:编程语言   时间:2015-04-26 13:54:36    阅读次数:295
Scrapy在win7 32位的安装及依赖包
Scrapy,一个网络爬虫的框架,首先第一步肯定是安装。参考网上的文章。安装过程中需要用到pip工具,请自行安装。1.安装python这个是必须的,既然都用到scrapy了,肯定已经安装了python,这个略过。2.安装pywin32下载地址:http://sourceforge.net/proje...
分类:Windows程序   时间:2015-04-25 00:03:30    阅读次数:248
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!