参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
1.元组(tuple)元组由不同的元素组成,每个元素可以储存不同类型的数据,如字符串、数字甚至元组。元组是写保护的,即元组创建后不能再做任何修改操作。1.1元组的创建Tuple(元组)由一系列元素组成,所有元素被包含在一对圆括号中。创建元组时可以不指定元素个数,但一旦创建后就不能修改长度元组的创建格...
分类:
编程语言 时间:
2014-04-28 06:33:27
阅读次数:
711
近日,研究Tencent网页模拟登录的过程,过程有些忐忑。先将结果写于此,供大家参考:其加密过程在c_login_old.js文件中执行,将JS关键代码提取出来如下:function
hexchar2bin(str) { var arr = []; for (var ...
分类:
编程语言 时间:
2014-04-28 06:23:24
阅读次数:
1141
php获取系统当前日期 显示的格式: 年-月-日 小时:分钟:秒相关时间参数:a - "am" 或是
"pm"A - "AM" 或是 "PM"d - 几日,二位数字,若不足二位则前面补零; 如: "01" 至 "31"D - 星期几,三个英文字母; 如:
"Fri"F - 月份,英文全名; 如: "...
分类:
Web程序 时间:
2014-04-28 06:15:34
阅读次数:
706
1下载驱动库http://sourceforge.net/projects/mysql-python/2,yum install mysql-dev*yum
install python-dev*3,python setup.py install
分类:
数据库 时间:
2014-04-28 05:40:20
阅读次数:
634
3.1 Installing mod_pythonTo install mod_python,
we simply run:yum install mod_python3.2 Configuring ApacheNow we must configure
Apache so that it can ...
分类:
编程语言 时间:
2014-04-28 04:52:46
阅读次数:
735
本论文主要有三个关键的贡献:使用积分图快速地计算haar特征使用adaboost算法从特征池中现在关键的特征构建分类器级联实现快速的人脸检测haar特征:本论文使用三种简单的矩形特征:由上下(或者左右)邻接的大小相同的两个矩形组成(如下图a),特征值为白的矩形的像素和减去黑的矩形的像素和由上下(或者...
分类:
其他好文 时间:
2014-04-28 03:12:04
阅读次数:
579
http://blog.chinaunix.net/u2/76292/showart.php?id=1274181一顺便说说了哦通常情况下,对函数库的链接是放在编译时期(compile
time)完成的.所有相关的对象文件(object file)与牵涉到的函数库(library)被链接合成一个可执...
分类:
系统相关 时间:
2014-04-28 03:06:10
阅读次数:
818
http://acm.fzu.edu.cn/problem.php?pid=2168最重要的是dp[k]=dp[k-1]-ans[k-1]+x[i]*m;ans[k-1]是m个数求和。Problem
2168 防守阵地 I Accept: 14Submit: 20 Time Limit: 3000 ...
分类:
其他好文 时间:
2014-04-28 02:30:56
阅读次数:
442
下沙的沙子有几粒?Time Limit: 2000/1000 MS
(Java/Others)Memory Limit: 65536/32768 K (Java/Others)Total Submission(s):
2584Accepted Submission(s): 1346Problem D...
分类:
其他好文 时间:
2014-04-28 02:07:21
阅读次数:
383