问题一:microsoft visual c++ 9.0 is required 参考:http://www.cnblogs.com/ldm1989/p/4210743.html 问题二:ERROR: ‘xslt-config’ 不是内部或外部命令 参考:http://www.crifan.com/
最近用Scrapy写爬虫,将爬取的数据存入Mongodb中,使用的是pymongo这个库,但是运行的时候报错如标题所示 搜了好多网站包括stackoverflow都没有解决,后来发现自己用的是虚拟环境下的python,于是切换到虚拟环境目录并激活然后在运行就正常了.
分类:
其他好文 时间:
2016-02-15 16:27:39
阅读次数:
869
最近在自学爬虫框架scrapy,看了看官网文档,迫不及待动手安装。结果错误百出,惨不忍睹。网上搜了一篇文章,(原文链接http://www.tuicool.com/articles/URNVV3E)。首先,介绍下环境:1、Centos6.5x64安装在VMware虚拟机中,因为后期需要移植,遂选择了兼容vm10.0。#yum-yupd..
分类:
其他好文 时间:
2016-02-04 01:57:55
阅读次数:
379
import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = 'example.com' allowed_domains = ['example.com'] start_urls = [
分类:
其他好文 时间:
2016-02-02 14:45:20
阅读次数:
121
初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 还是先推荐几个学习的教程:Scrapy 0.25文档 Scrapy快速入门教程这些教程里面有关于Scrapy的安装,创建项目,爬取实例等...
分类:
编程语言 时间:
2016-01-25 19:34:57
阅读次数:
306
转自:http://www.leyle.com/archives/canonicalize_url.html思考一下:对url进行规范化处理是否是必须的?因为这一步处理涉及到编码转换,对于一个网页的新链发现来说是比较耗时的。为什么需要格式化 url?比如下面几个url:http://www.exam...
分类:
Web程序 时间:
2016-01-24 23:40:43
阅读次数:
251
一、主要思路scrapy爬取是有课程地址及名称使用multiprocessing进行下载就是为了爬点视频,所以是简单的代码堆砌想而未实行,进行共享的方式二、文件说明itemsscray字段piplines.py存储数据库setting.py scrapy配置 需要注意的是DEFAULT_REQUES...
分类:
编程语言 时间:
2016-01-18 20:45:58
阅读次数:
211
第一步:安装Pythonhttp://python.org/download/,将Python的可执行程序及额外的脚本添加到系统路径中,验证python --versionC:\Python27\;C:\Python27\Scripts\;第二步:安装pywin32http://sourceforg...