码迷,mamicode.com
首页 >  
搜索关键字:scrapy    ( 2725个结果
【原创】No matching distribution found for Twisted>=10.0.0 (from scrapy)
系统 Ubuntu14.04 python 2.7.11 运行 pip install scrapy 报错: No matching distribution found for Twisted>=10.0.0 (from scrapy) 需要手动安装Twisted, 从官网 https://twi ...
分类:其他好文   时间:2016-04-08 19:56:59    阅读次数:3647
scrapy 爬取糗事百科
安装scrapy conda install scrapy 创建scrapy项目 scrapy startproject qiubai 启动pycharm,发现新增加了qiubai这个目录 在spider目录下创建indexpage.py文件 编写糗百爬虫,获取首页的所有作者信息 #导入scrapy... ...
分类:其他好文   时间:2016-04-06 23:19:50    阅读次数:449
How to install OpenBazaar Server in CentOS7
helps from: https://github.com/OpenBazaar/OpenBazaar-Server http://stackoverflow.com/questions/24917657/error-while-installing-scrapy http://stackover ...
分类:其他好文   时间:2016-04-06 02:10:15    阅读次数:238
利用Anaconda进行python爬虫环境的配置-安装scrapy
1.下载Anaconda,下载地址:https://www.continuum.io/downloads 2.安装anaconda. 3.安装scrapy ...
分类:编程语言   时间:2016-04-01 20:14:26    阅读次数:246
scrapy 爬去网页(1)
第一次爬去https://segmentfault.com/t/python?type=newest&page=1 首先定义爬去的字段: 编写爬虫: 编写PIPlines 结果爬去了3456条数据源码在https://github.com/FizLBQ/SpiderPython/tree/Scrap ...
分类:Web程序   时间:2016-03-31 18:50:53    阅读次数:317
scrapy爬取网易新闻内容
最近在写毕业论文,是做个文本分类相关的题目。想抓取网易新闻里那些新闻内容作为分析的数据,于是就又照着scrapy的文档照做了一遍。。。 感觉主要就只是两个文件items.py和spiders文件夹下的爬取规则的文件,我这里爬取技术类文档的直接叫tech.py了 scrapy的入门教程已经写的很详细了 ...
分类:其他好文   时间:2016-03-28 01:59:31    阅读次数:1457
基于Redis的三种分布式爬虫策略
前言:爬虫是偏IO型的任务,分布式爬虫的实现难度比分布式计算和分布式存储简单得多。 个人以为分布式爬虫需要考虑的点主要有以下几个: 爬虫任务的统一调度 爬虫任务的统一去重 存储问题 速度问题 足够“健壮”的情况下实现起来越简单/方便越好 最好支持“断点续爬”功能 Python分布式爬虫比较常用的应该是scrapy框架加上Redis内存数据库,中间的调度任务等用scrapy-redis模块实现。...
分类:其他好文   时间:2016-03-28 00:10:36    阅读次数:189
python爬取github数据
爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们伤心。上级不屑的说,那就写一个爬虫爬一爬github,找一找python大牛,公司也正好在找人。临危 ...
分类:编程语言   时间:2016-03-27 07:04:27    阅读次数:211
解决pycharm无法导入本地包的问题(Unresolved reference 'tutorial')
在用scrapy(python2.7)写爬虫的时候 from tutorail.items import DmozItem 这一行死活不成功 也就是出现 Unresolved reference 'tutorial' 的问题 当然,其实不只是爬虫,如果你初次导入包是应该也可能会遇见这个问题! 解决办
分类:其他好文   时间:2016-03-20 14:40:40    阅读次数:2164
scrapy 知乎用户信息爬虫
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。代码地址:https://github.com/LiuRoy/zhihu_spider,欢迎各位大神指出问题,另外知乎也欢迎大家关注
分类:其他好文   时间:2016-03-20 12:59:59    阅读次数:184
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!