参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
1.元组(tuple)元组由不同的元素组成,每个元素可以储存不同类型的数据,如字符串、数字甚至元组。元组是写保护的,即元组创建后不能再做任何修改操作。1.1元组的创建Tuple(元组)由一系列元素组成,所有元素被包含在一对圆括号中。创建元组时可以不指定元素个数,但一旦创建后就不能修改长度元组的创建格...
分类:
编程语言 时间:
2014-04-28 06:33:27
阅读次数:
711
近日,研究Tencent网页模拟登录的过程,过程有些忐忑。先将结果写于此,供大家参考:其加密过程在c_login_old.js文件中执行,将JS关键代码提取出来如下:function
hexchar2bin(str) { var arr = []; for (var ...
分类:
编程语言 时间:
2014-04-28 06:23:24
阅读次数:
1141
1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum
install python-dev*3,python setup.py install
分类:
数据库 时间:
2014-04-28 05:40:20
阅读次数:
634
1,PVC计算的基本原理配方员设计好配方,再进行抽象提炼,会出现相对于软件而言可以理解的逻辑,如属性的概念,对厂企生成的PVC产品而言,一般都有产品大类名称,花纹,颜色,长度,宽度,厚度等概念,这对于软件而言,就是一个对象,该对象是描述订单的对象。而配方计算出来的结果,如原料名称,质量比分量,重量等...
分类:
其他好文 时间:
2014-04-28 05:20:38
阅读次数:
552
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
Android项目需求,要对一个ListView进行多字段模糊过滤,系统自带的ArrayAdapter是有过滤功能,但是项目使用的是BaseAdapter适配器,
List做数据源, 如果要实现过滤的话,就要遍历原始的List后重新生成新的List,至少需要两个List,所以就想在不重新生成Li.....
分类:
编程语言 时间:
2014-04-28 03:55:40
阅读次数:
552
在Linux下进行C语言编程,必然要采用GNU
GCC来编译C源代码生成可执行程序。一、GCC快速入门Gcc指令的一般格式为:Gcc [选项] 要编译的文件 [选项]
[目标文件]其中,目标文件可缺省,Gcc默认生成可执行的文件名为:编译文件.out我们来看一下经典入门程序"Hello World!...
分类:
其他好文 时间:
2014-04-28 03:26:12
阅读次数:
432
第一步打开wxFormBuilder修改工程信息并保存工程Name: 工程名File:
生成代码(.py)文件名Code_generation:
生成代码类型第二步创建窗体切换至forms页选择Form按钮创建框架(或Dialog按钮创建对话框)修改窗体信息name:窗体类名title:窗体标题第三...
分类:
其他好文 时间:
2014-04-27 22:48:15
阅读次数:
1071
ichat是一款开源免费在线客服jQuery插件,通过该插件,您可以自由的定制属于自己的在线客服代码。
ichat充分吸收传统在线客服插件的优点,并加上自身的独特设计,使得ichat可定制性异常强大。
ichat追求简单实用,走小清新路线,以便能够适应大多数网站风格。 ichat几乎全部由配置生成....
分类:
Web程序 时间:
2014-04-27 21:27:03
阅读次数:
832