码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
WinForm使用webbrowser爬取数据,中文乱码问题
使用winform中的webbrowser抓取某个网站的数据时,遇到中文乱码的问题:当时使用的获取网页内容的代码为:webBrowser1.DocumentText.ToString();不管我如何使用转换编码的方式进行转换,都是乱码,在度娘的帮助下,终于找到正确答案:如果所爬取的网站的编码是GB2...
分类:Windows程序   时间:2014-12-17 00:07:41    阅读次数:358
Daily Scrum 12.16
今日任务情况:名字今日任务刘垚鹏完善和增加quiz页面的过滤功能王骜限制爬取功能(quiz/pdf/html)林旭鹏存储文件路径太长导致bug修复安康无关页面过滤算法的优化黄新越LinkQueue.java有可能出空指针错误的修改李桐博客编写燃尽图如下:
分类:其他好文   时间:2014-12-16 23:54:20    阅读次数:198
用python的BeautifulSoup分析html
序言 之前用python爬取网页的时候,一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时,SGMLParser往往就不那么给力了!(哈,难道说我 too native了?毕竟beautifulSoup是继承sgmlparser的么~)所以,我寻寻觅觅....
分类:编程语言   时间:2014-12-15 16:46:54    阅读次数:263
Daily Scrum 12.14
本周末我们将任务分配,第二轮迭代的具体任务已正式开始。1、需求描述:重点!限制爬取功能(quiz/pdf/html)需求完成人:王骜2、需求描述:quiz页面的过滤功能(原来只是把非pdf和html的页面以及地址里包含stackoverflow的页面当成quiz)(天神他们组说百度知道、知乎、搜狗问...
分类:其他好文   时间:2014-12-15 00:08:58    阅读次数:246
简单的大众点评爬虫
一个很简单的爬虫,爬取中大周边地点的点评信息。# -*- coding: utf-8 -*-import requestsimport reimport timedef placeSplider(name, star, url): time.sleep(5) res = requests...
分类:其他好文   时间:2014-12-12 22:08:27    阅读次数:288
Daily Scrum 12.12
在M1事后的分析与调整之后,我们学霸几个组讨论了下一段任务的需求,明确了每一个组都要干什么。接着,我们经过三天时间的讨论,对我们组的需求做了调查、排序,管理。最后将需求排序,并分配给了每一个人。下面是我们要做的需求列表:1、重要度:重要 需求类型:改进 需求描述: 限制爬取功能...
分类:其他好文   时间:2014-12-12 01:18:35    阅读次数:236
SCRUM 12.09 软件工程第二周计划
第二轮迭代的第二周开始了,上一周我们进行了对代码优化的探索与自我审查。本周,我们有以下两点目标要实现:1.对客户端进行优化。2.网络爬虫爬取美团外卖。客户端优化主要开发人员:高雅智、牛强、彭林江、张明培育。网络爬虫功能主要开发人员:王卓、郝倩。具体分配如下表成员新任务高雅智注册登录收藏功能图片控件优...
分类:其他好文   时间:2014-12-10 00:26:51    阅读次数:278
使用scrapy爬取页面数据到入库遇到的问题
1.编码问题页面是gbk的,数据库是utf8的gbk到utf8的转化得通过unicode编码:gbk 《--unicode--》utf8具体参考http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.htmlscrapy从页面抓到的数据自动转化为...
分类:其他好文   时间:2014-12-09 00:17:00    阅读次数:199
1.搜索引擎的历史,搜索引擎起步,发展,繁荣,搜索引擎的原理,搜索技术用途,信息检索过程,倒排索引,什么是Lucene,Lucene快速入门
?? 一: 1  搜索引擎的历史 萌芽:Archie、Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页   2  起步:Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的,可以执行特定任务的程序 Spider:特殊的机器人,网络爬虫,爬取互联网上的信息(可以是文件,网络)----网络自...
分类:Web程序   时间:2014-12-08 00:56:28    阅读次数:301
jsoup httpclient 爬取网页并下载google图标
jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...
分类:Web程序   时间:2014-12-07 23:04:12    阅读次数:316
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!