我的环境是ubuntu14.04安装scrapy,我使用pip
安装如果你还没安装pip,用下面命令安装sudo apt-get install python-pip然后使用pip来安装python相关的库扩展pip
install scrapy不过出现错误error: could not cre....
分类:
其他好文 时间:
2014-05-19 15:19:27
阅读次数:
364
www.iwangzheng.com目前我们项目中的 CSS/JS 文件比较多,
由于RAILS 3.0 没有提供asset pipeline功能,所以这样会制约我们的访问速度。 例如: 目前,我们的布局( origin.html.erb
)页面有 19 个JS文件,15个...
分类:
编程语言 时间:
2014-05-10 20:46:01
阅读次数:
508
在上一篇中,使用scrapy修改源IP发送请求的最后我们提到由于hosts文件不支持正则,会导致我们的随机域名DNS查询失败。是用DNS服务器可以解决这个问题,下面是我用gevent写的小工具,很简单。我们只拦截匹配的A记录,然后发送DNS Response,如果不匹配,那么我们服务器就是一个DNS代理,转发请求。# -*- coding=utf-8 -*-
import struct
from...
分类:
编程语言 时间:
2014-05-09 13:49:34
阅读次数:
560
Gstreamer学习笔记----Gstreamer架构设计思想
http://blog.csdn.net/tx3344/article/details/7497434Gstreamer到底是个啥?GStreamer 是一个
基于pipeline的多媒体框架,基于GObject,以C语言写成。应用G...
分类:
其他好文 时间:
2014-05-07 20:10:53
阅读次数:
320
packagecom.smilezl.scrapy;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.HttpURLConnection;importjava.net.URL;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.Statement;importjava.u..
分类:
Web程序 时间:
2014-05-04 17:35:41
阅读次数:
341
参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707