使用winform中的webbrowser抓取某个网站的数据时,遇到中文乱码的问题:当时使用的获取网页内容的代码为:webBrowser1.DocumentText.ToString();不管我如何使用转换编码的方式进行转换,都是乱码,在度娘的帮助下,终于找到正确答案:如果所爬取的网站的编码是GB2...
今日任务情况:名字今日任务刘垚鹏完善和增加quiz页面的过滤功能王骜限制爬取功能(quiz/pdf/html)林旭鹏存储文件路径太长导致bug修复安康无关页面过滤算法的优化黄新越LinkQueue.java有可能出空指针错误的修改李桐博客编写燃尽图如下:
分类:
其他好文 时间:
2014-12-16 23:54:20
阅读次数:
198
序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅....
分类:
编程语言 时间:
2014-12-15 16:46:54
阅读次数:
263
本周末我们将任务分配,第二轮迭代的具体任务已正式开始。1、需求描述:重点!限制爬取功能(quiz/pdf/html)需求完成人:王骜2、需求描述:quiz页面的过滤功能(原来只是把非pdf和html的页面以及地址里包含stackoverflow的页面当成quiz)(天神他们组说百度知道、知乎、搜狗问...
分类:
其他好文 时间:
2014-12-15 00:08:58
阅读次数:
246
一个很简单的爬虫,爬取中大周边地点的点评信息。# -*- coding: utf-8 -*-import requestsimport reimport timedef placeSplider(name, star, url): time.sleep(5) res = requests...
分类:
其他好文 时间:
2014-12-12 22:08:27
阅读次数:
288
在M1事后的分析与调整之后,我们学霸几个组讨论了下一段任务的需求,明确了每一个组都要干什么。接着,我们经过三天时间的讨论,对我们组的需求做了调查、排序,管理。最后将需求排序,并分配给了每一个人。下面是我们要做的需求列表:1、重要度:重要 需求类型:改进 需求描述: 限制爬取功能...
分类:
其他好文 时间:
2014-12-12 01:18:35
阅读次数:
236
第二轮迭代的第二周开始了,上一周我们进行了对代码优化的探索与自我审查。本周,我们有以下两点目标要实现:1.对客户端进行优化。2.网络爬虫爬取美团外卖。客户端优化主要开发人员:高雅智、牛强、彭林江、张明培育。网络爬虫功能主要开发人员:王卓、郝倩。具体分配如下表成员新任务高雅智注册登录收藏功能图片控件优...
分类:
其他好文 时间:
2014-12-10 00:26:51
阅读次数:
278
1.编码问题页面是gbk的,数据库是utf8的gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8具体参考http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.htmlscrapy从页面抓到的数据自动转化为...
分类:
其他好文 时间:
2014-12-09 00:17:00
阅读次数:
199
??
一:
1
搜索引擎的历史
萌芽:Archie、Gopher
Archie:搜索FTP服务器上的文件
Gopher:索引网页
2
起步:Robot(网络机器人)的出现与spider(网络爬虫)
Robot基于网络的,可以执行特定任务的程序
Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自...
分类:
Web程序 时间:
2014-12-08 00:56:28
阅读次数:
301
jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...
分类:
Web程序 时间:
2014-12-07 23:04:12
阅读次数:
316