爬虫2.0 测试报告1.单元测试模块类输入预期实际分析网页分析一个包含若干链接的网页将页面上的 URL 作初步筛选过滤后提取 出来,并爬取相关内 容存入数据库网页上的 URL都被提取出来 放在队列中, 数据库存取正 常模块功能正常队列队列里的 URL 项有序进入下载无异常模块功能正常下载提供 URL...
分类:
其他好文 时间:
2014-12-29 00:58:57
阅读次数:
158
我们在测试时,将应用的整个系统分为客户端、服务器端、爬虫部分三个模块,并对之逐个进行了全面、深入的测试。如下是这三个模块测试的介绍、简摘及结果汇总。客户端:已知限制:需联网及获取位置信息在对客户端的功能测试上总共发现3个BUG,摘述如下:BUG1:出现在主界面的下拉刷新控件。当下拉刷新时,会默认选定...
分类:
其他好文 时间:
2014-12-28 23:42:35
阅读次数:
145
第一章引言1.1编写目的本测试报告为newbe软工小组编写的爬虫程序Beta版本的测试报告,目的在于总结测试第二阶段开发任务的测试以及分析测试结果,描述系统是否符合此新版本的需求。本阶段我们的测试人员主要为(需要填写)。1.2项目背景我们小组的研究课题是:在已经完成的爬虫程序的基础上进行功能的拓展和...
分类:
其他好文 时间:
2014-12-28 23:42:32
阅读次数:
222
一、新功能 客户端 搜索功能 菜品图片加载 图片控件点击 意见反馈 微信分享 清除缓存 友盟统计 爬虫段 算法优化》爬取效率增加 自动爬取数据 服务端 接收保存并处理反馈的意见 单元测试功能二、修复的缺陷 客户端 无法退...
分类:
其他好文 时间:
2014-12-28 22:06:23
阅读次数:
168
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页,以及如何使用 HttpClient 来简化 Get 和 Post 请求操作,构建...
分类:
Web程序 时间:
2014-12-27 21:38:23
阅读次数:
455
著作权所有:http://www.cnblogs.com/zeusro/引用(爬虫)不给稿费的,切你jj一、追忆似屎年华在上一篇post(http://www.cnblogs.com/zeusro/p/4185196.html)里面,我留下了3个坑没有填平。2模块化加载到nodejs里面,用于批量采...
分类:
Web程序 时间:
2014-12-27 12:37:21
阅读次数:
162
下载scrapy
在命令行下输入: sudo apt-get install python-scrapy
或者进入http://scrapy.org下载安装
新建项目
命令行下进入项目目录,输入scrapy startproject start
新建一个名为start的项目
项目结构如下
start/
scrapy.cfg
start/
_...
分类:
系统相关 时间:
2014-12-26 22:58:42
阅读次数:
290
震惊,大多数互联网用户都不是人
网站安全和内容分发公司Incapsula发布了一个数据,56%的网页浏览量都由爬虫机器人贡献。
爬虫机器人因为功能和目的不同分为这几类:
Search engine crawlers:搜索引擎爬虫,它们能够对网页建立索引,这样人们就可以在搜索框查找到对应网页的内容。Google就使用这个爬虫整理全世界的信息。
RSS bots:订阅类爬虫,能够从网站抓取...
分类:
其他好文 时间:
2014-12-26 13:04:56
阅读次数:
156
1、利用selenium的webdriver驱动浏览器。(可以获取浏览器cookie)2、selenium之WebDriver。3、Selenium+Phantomjs数据抓取环境配置。***walker*2-14-12-26***
分类:
其他好文 时间:
2014-12-26 11:21:04
阅读次数:
115