参照着网上的爬虫案例(点我),先做了一个demo,基本的爬虫项目创建,以及数据抽取,数据分析,数据保存等等过程基本上有所掌握。
我的需求是需要检索指定的百度贴吧,根据指定的关键字库,搜索出含有关键字的链接,并抽取出来,用于后续告警。 因此,基于需求,分如下步骤:
第一:基于Scrapy创建爬虫项目;...
分类:
编程语言 时间:
2014-04-28 17:37:30
阅读次数:
707
想写个自动定会议室的程序。1、会议系统登录后,存在session,提交会议室的订单通过httpwatch拼接后获得链接地址,直接访问链接及可以了2、如果没有提前登录,就无法提交链接了。使用python+PAMIE实现了了自动登录的过程(登录的链接一直拼接不出来。。)下面说说这个研究过程。。1、一开始...
分类:
编程语言 时间:
2014-04-28 16:04:47
阅读次数:
848
什么是后缀数组?后缀数组是一种解决字符串问题的有力工具。相比于后缀树,它更易于实现且占用内存更少。在实际应用中,后缀数组经常用于解决字符串有关的复杂问题。先介绍几个后缀数组中的基本定义:子串:字符串S
的子串r[i..j],i≤j,表示r 串中从i 到j 这一段,也就是顺次排列r[i],r[i+1]...
分类:
其他好文 时间:
2014-04-28 15:54:52
阅读次数:
564
首先,应该清楚MFC的消息循环(::GetMessage,::PeekMessage),消息泵(CWinThread::PumpMessage)和MFC的消息在窗口之间的路由是两件不同的事情。在MFC的应用程序中(应用程序类基于CWinThread继承),必须要有一个消息循环,他的作用是从应用程序的...
分类:
其他好文 时间:
2014-04-28 15:41:07
阅读次数:
488
1. find find是最常见和最强大的查找命令,你可以用它找到任何你想找的文件。
find的使用格式如下: $ find - : 所要搜索的目录及其所有子目录。默认为当前目录。 - : 所要搜索的文件的特征。 - :
对搜索结果进行特定的处理。 如果什么参数也不加,find...
分类:
其他好文 时间:
2014-04-28 15:33:09
阅读次数:
602
这个天气预报采集是从中国天气网提取广东省内主要城市的天气并回显。本来是打算采集腾讯天气的,但是貌似它的数据是用js写上去还是什么的,得到的html文本中不包含数据,所以就算了爬虫简单说来包括两个步骤:获得网页文本、过滤得到数据。
1、获得html文本。 python在获取html方面十分方便,寥.....
分类:
编程语言 时间:
2014-04-28 15:31:09
阅读次数:
712
“答案正确”是自动判题系统给出的最令人欢喜的回复。本题属于PAT的“答案正确”大派送 ——
只要读入的字符串满足下列条件,系统就输出“答案正确”,否则输出“答案错误”。得到“答案正确”的条件是:1. 字符串中必须仅有P, A,
T这三种字符,不可以包含其它字符;2. 任意形如 xPATx 的字符串都...
分类:
其他好文 时间:
2014-04-28 14:55:50
阅读次数:
739
sudo apt-get install
python-software-propertiessudo apt-add-repository ppa:brightbox/ruby-ngsudo
apt-get updatesudo apt-get install ruby2.1ruby2.1 -vr...
分类:
其他好文 时间:
2014-04-28 14:18:29
阅读次数:
445
在PHP中.表示的字符串和字符串相连接起来的strlen()表示的是计算字符串的长度的eg:$varnamber1="我不知道自己该做些什么";echo
$varstrlen;strpos() 函数用于在字符串内检索一段字符串或一个字符。$names = array("Peter","Quagmir...
分类:
其他好文 时间:
2014-04-28 13:09:22
阅读次数:
499
概述:我所谓完备的幻灯片,乃指满足下列条件的页面效果:1、包含左右箭头;2、左右箭头能无限点击,产生无限循环切换的效果;2、图片具有滑动效果;3、包含与图片一一对应,用以切换的选项块;4、选项块拥有两个状态,其一为普通,其二为「当前」,后者反映其自身与当前显示区的图片具有对应关系,该对应关系必须随时...
分类:
Web程序 时间:
2014-04-28 12:57:38
阅读次数:
586