参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
wxwidget官方建议的工具集合:http://wiki.wxwidgets.org/Tools支持wxpython可视化开发工具wxFormBuilderwxGladewxDesignerVisualWX
分类:
编程语言 时间:
2014-04-28 06:37:32
阅读次数:
846
1.元组(tuple)元组由不同的元素组成,每个元素可以储存不同类型的数据,如字符串、数字甚至元组。元组是写保护的,即元组创建后不能再做任何修改操作。1.1元组的创建Tuple(元组)由一系列元素组成,所有元素被包含在一对圆括号中。创建元组时可以不指定元素个数,但一旦创建后就不能修改长度元组的创建格...
分类:
编程语言 时间:
2014-04-28 06:33:27
阅读次数:
711
近日,研究Tencent网页模拟登录的过程,过程有些忐忑。先将结果写于此,供大家参考:其加密过程在c_login_old.js文件中执行,将JS关键代码提取出来如下:function
hexchar2bin(str) { var arr = []; for (var ...
分类:
编程语言 时间:
2014-04-28 06:23:24
阅读次数:
1141
1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum
install python-dev*3,python setup.py install
分类:
数据库 时间:
2014-04-28 05:40:20
阅读次数:
634
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
近期很多文章都提到了User-Agent (UA)
字符串,但大部分网友都不知道这个东西有什么用处。其实简单的说User-Agent就是客户端浏览器等应用程序使用的一种特殊的网络协议,在每次浏览器(邮件客户端/搜索引擎蜘蛛)进行
HTTP 请求时发送到服务器,服务器就知道了用户是使用什么浏览器(邮件...
分类:
其他好文 时间:
2014-04-28 04:25:14
阅读次数:
649
为了方便自己测试和监控,写了三个监控的脚本。 分别监控:
主机【cpu,mem,disk,fs,net】 oracle mysql 脚本如下:hmon.py: monitor Linux os system
including cpu,memory,disk,net,file s...
分类:
数据库 时间:
2014-04-28 01:27:52
阅读次数:
765
PHP(PHP: Hypertext
Preprocessor的缩写,中文名:“超文本预处理器”)是一种通用开源脚本语言。语法吸收了C语言、Java和Perl的特点,入门门槛较低,易于学习,使用广泛,主要适用于Web开发领域。PHP的文件后缀名为phpPHP
独特的语法混合了C、Java、Perl以...
分类:
Web程序 时间:
2014-04-28 00:25:03
阅读次数:
896
【不要向没权力&能力的人证明自己的能力】
不是所有的上级都有足够的权力和能力。一个没权力的Leader,即使你向他证明了自己的能力,你所能获得的也只能是他的邮件表扬的荣誉。对于加薪,他能给的仅仅一个相对较好的考评,等待公司人力资源根据考评组织年度调薪。对于升职,你的Leader都仅比你高一级,你能....
分类:
其他好文 时间:
2014-04-27 22:46:11
阅读次数:
634