搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

WinForm使用webbrowser爬取数据，中文乱码问题

使用winform中的webbrowser抓取某个网站的数据时，遇到中文乱码的问题：当时使用的获取网页内容的代码为：webBrowser1.DocumentText.ToString();不管我如何使用转换编码的方式进行转换，都是乱码，在度娘的帮助下，终于找到正确答案：如果所爬取的网站的编码是GB2...

分类：Windows程序时间：2014-12-17 00:07:41 阅读次数：358

Daily Scrum 12.16

今日任务情况：名字今日任务刘垚鹏完善和增加quiz页面的过滤功能王骜限制爬取功能(quiz/pdf/html)林旭鹏存储文件路径太长导致bug修复安康无关页面过滤算法的优化黄新越LinkQueue.java有可能出空指针错误的修改李桐博客编写燃尽图如下：

分类：其他好文时间：2014-12-16 23:54:20 阅读次数：198

用python的BeautifulSoup分析html

序言之前用python爬取网页的时候，一直用的是regex或者自带的库sgmllib里的SGMLParser。但是遇到复杂一点的情况时，SGMLParser往往就不那么给力了！（哈，难道说我 too native了？毕竟beautifulSoup是继承sgmlparser的么~）所以，我寻寻觅觅....

分类：编程语言时间：2014-12-15 16:46:54 阅读次数：263

Daily Scrum 12.14

本周末我们将任务分配，第二轮迭代的具体任务已正式开始。1、需求描述：重点！限制爬取功能(quiz/pdf/html)需求完成人：王骜2、需求描述：quiz页面的过滤功能(原来只是把非pdf和html的页面以及地址里包含stackoverflow的页面当成quiz)(天神他们组说百度知道、知乎、搜狗问...

分类：其他好文时间：2014-12-15 00:08:58 阅读次数：246

简单的大众点评爬虫

一个很简单的爬虫，爬取中大周边地点的点评信息。# -*- coding: utf-8 -*-import requestsimport reimport timedef placeSplider(name, star, url): time.sleep(5) res = requests...

分类：其他好文时间：2014-12-12 22:08:27 阅读次数：288

Daily Scrum 12.12

在M1事后的分析与调整之后，我们学霸几个组讨论了下一段任务的需求，明确了每一个组都要干什么。接着，我们经过三天时间的讨论，对我们组的需求做了调查、排序，管理。最后将需求排序，并分配给了每一个人。下面是我们要做的需求列表：1、重要度：重要需求类型：改进　需求描述：限制爬取功能...

分类：其他好文时间：2014-12-12 01:18:35 阅读次数：236

SCRUM 12.09 软件工程第二周计划

第二轮迭代的第二周开始了，上一周我们进行了对代码优化的探索与自我审查。本周，我们有以下两点目标要实现：1.对客户端进行优化。2.网络爬虫爬取美团外卖。客户端优化主要开发人员：高雅智、牛强、彭林江、张明培育。网络爬虫功能主要开发人员：王卓、郝倩。具体分配如下表成员新任务高雅智注册登录收藏功能图片控件优...

分类：其他好文时间：2014-12-10 00:26:51 阅读次数：278

使用scrapy爬取页面数据到入库遇到的问题

1.编码问题页面是gbk的，数据库是utf8的gbk到utf8的转化得通过unicode编码：gbk 《--unicode--》utf8具体参考http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.htmlscrapy从页面抓到的数据自动转化为...

分类：其他好文时间：2014-12-09 00:17:00 阅读次数：199

1.搜索引擎的历史，搜索引擎起步，发展，繁荣，搜索引擎的原理，搜索技术用途，信息检索过程，倒排索引，什么是Lucene,Lucene快速入门

?? 一： 1 搜索引擎的历史萌芽：Archie、Gopher Archie:搜索FTP服务器上的文件 Gopher:索引网页 2 起步：Robot(网络机器人)的出现与spider(网络爬虫) Robot基于网络的，可以执行特定任务的程序 Spider：特殊的机器人，网络爬虫，爬取互联网上的信息（可以是文件，网络）----网络自...

分类：Web程序时间：2014-12-08 00:56:28 阅读次数：301

jsoup httpclient 爬取网页并下载google图标

jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...

分类：Web程序时间：2014-12-07 23:04:12 阅读次数：316

共4795条上一页 1 ... 467 468 469 470 471 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)