最近对flask的热情有点下降,对tornado有点高涨。 之前在知乎上回答过一个问题,如何理解 Tornado ?,我的回答如下:1.高性能的网络库,这可以和gevent,twisted,libevent等做对。提供了异步io支持,超时事件处理,在此基础上提供了tcpserver,httpclient,尤其是curlhttpclient,在现有http客户端中肯定排第一。可以用来做爬虫,游戏服务...
分类:
其他好文 时间:
2014-12-21 19:28:10
阅读次数:
345
# coding=utf-8
import urllib2
import urllib
import re
class QiuShi:
def _init_(self):
self.page = 1
# 从网页获取糗事
def GetQiuShis(self,page):
#网址
url = "http://www.qiushibaike.com/...
分类:
编程语言 时间:
2014-12-21 15:22:50
阅读次数:
279
VS2008 SP1 + QT 4.8.6 + OpenSSL 今天一个兄弟要webkit,我们最近确实在折腾爬虫这个东东,但是webkit编译有点纠结,索性找到了QtWebkit,选择一个比较成熟的版本 QT 4.8.6. 一路走过来,太多的要准备,这个可能就是开源的乐趣吧。1.安装perl 由于...
分类:
其他好文 时间:
2014-12-21 13:50:16
阅读次数:
424
最近一直帮老板写爬虫,写累了就寻思着找点乐子,碰巧平时喜欢逛豆瓣,就打算写一个自动回帖机器人,废话不多说我们进入正题:主要用到2个开源工具:Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...
分类:
编程语言 时间:
2014-12-21 12:36:59
阅读次数:
232
博主虽然学计算机出身,惭愧的是对计算机的许多方向都不了解。决定从现在开始,多读书,对各个方向都看一看。刚看完数学之美这本书,介绍了许多数学原理在计算机行业的应用。博主想简单总结一下,本篇主要围绕搜索引擎技术来介绍。
当我们在Google搜索框里面打一个词时,Google可以立即返回全网的搜索结果。这看似简单的背后,其实有着很复杂的处理过程。能够这么快的返回查询结果,依赖于搜索引擎对全网知识所做的...
分类:
其他好文 时间:
2014-12-21 00:44:05
阅读次数:
199
以下为我们爬虫遇到问题的报告 我们团队的m2阶段原本计划是爬取美团的信息以支持我们的app对比功能,但在这一阶段遇到很多问题,主要表现如下:美团反爬机制: 由于我们团队人员在事先并不知道美团具有反爬机制,所以一开始就全力着重于美团网页的分析,但当我们几乎把爬虫程序写完之后才发现,美团的网页具有反.....
分类:
其他好文 时间:
2014-12-21 00:36:54
阅读次数:
296
现在网络上有很多爬虫,专门四处搜集网站代码中出现的邮箱,搜集到了之后就批量出售或者发送垃圾邮件。很多人都把邮箱中的 “@” 换成 “#”,但这样对用户不太方便,而且这种方法很多机器人都可以识破,同样被搜集走。本文中,我将演示如果通过编码邮箱的方式防止搜集邮箱的机器人。首先把下边的代码放到当前主题的f...
分类:
其他好文 时间:
2014-12-20 15:28:51
阅读次数:
298
排版练习本文《哈希表和完美哈希》由Dennis Gao发表自博客园博客,任何未经作者本人允许的人为或爬虫转载均为耍流氓。原地址:http://www.cnblogs.com/gaochundong/p/hashtable_and_perfect_hashing.html哈希表和完美哈希我们知道,通过...
分类:
其他好文 时间:
2014-12-20 12:51:55
阅读次数:
144
我们的爬虫依然存在一些问题,我们决定暂时将大家的工作重心放在爬虫上。新的任务分配如下成员原本任务新任务彭林江落实API研究美团爬虫郝倩研究遍历美团数据方法研究遍历美团数据方法牛强落实意见反馈功能测试研究美团爬虫高雅智测试已完成组件研究美团爬虫王卓研究遍历美团数据方法研究遍历美团数据方法张明培育实施U...
分类:
其他好文 时间:
2014-12-20 07:02:26
阅读次数:
213
12-18 今晚接到老姐的电话,说她已在“医学教育网”订购了不少视频,要我帮她将所有的视频都下载下来。 我看了一下,里面有24门科目,每门科目有40多节。要我手动一个一个下,还不如让我去死。 这种重复的事情还...
分类:
其他好文 时间:
2014-12-19 00:48:27
阅读次数:
242