python抓取伯乐在线的所有文章,对标题分词后存入mongodb中...
分类:
数据库 时间:
2014-07-16 17:09:20
阅读次数:
289
最近,有个朋友说,想在一些页面上获取一些关键性得信息。比如,电话,地址等等。一个个页面去找 又很麻烦。这时候,想起了 何不去用“爬虫”去抓取一些想要得东西。省事,省里。好,今天 我们就讲讲,关于爬虫得一些东西。
这里 自己也是,看了一些关于爬虫得知识,正好,这几日闲来没事。做了一个功能小得爬虫。
这里是使用 java来进行编写得 首先 我们来介绍下。使用得框架,jdk1.6,...
分类:
其他好文 时间:
2014-07-16 10:08:54
阅读次数:
267
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:
Web程序 时间:
2014-07-15 23:08:41
阅读次数:
330
public class Table { /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub WebD...
分类:
其他好文 时间:
2014-07-15 09:14:08
阅读次数:
422
好吧,没想到居然这么快,才两天我就把入门看完了,当然只是入门,以后如果用到,会把那些各个类型的细化都总结一下例如数学函数,或者总结一下一些框架的应用如Scarpy(爬虫框架,听着就很兴奋呢,很多人都是了解有,但是没用过......),笔者写完这段暂时先开心的看电影去,回学校再说。Python的屏幕I...
分类:
编程语言 时间:
2014-07-15 08:26:59
阅读次数:
204
主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是...
分类:
其他好文 时间:
2014-07-15 08:01:58
阅读次数:
189
我们如果在公司或家里使用网络爬虫去抓取自己索要的一些数据的时候,常常对方的网站有defence机制,会给你的http请求返回500错误,只要是相同IP就请求不到数据,这时候我们只能去重启路由器,这样IP地址会改变,网络爬虫就能正常工作了
下面是通过发送Socket请求来模拟路由器的重启指令:
protected void rebotadsl() {
try {
BufferedO...
分类:
编程语言 时间:
2014-07-14 13:00:50
阅读次数:
274
上一篇博客我们成功地从网页上爬下了小说的一个章节,理所当然地,接下来我们要把整本小说都爬下来。首先,我们要把程序从原来的读完一章就结束,改成读完一章之后可以继续进行下一章的阅读。
注意到每个小说章节的网页下面都有下一页的链接。通过查看网页源代码,稍微整理一下( 不显示了),我们可以看到这一部分的 HTML 是下面这种格式的:...
分类:
编程语言 时间:
2014-07-12 22:45:47
阅读次数:
341
本篇是软件测试自学课程的第0讲,主要介绍一下你在本专栏可以学到什么,学习前需要准备什么。
本专栏主要会分成三部分来介绍软件测试的必备知识:
1、软件测试的基础知识,这部分主要包括软件测试的基础理论、Bug相关的理论和测试用例设计技术三部分,通过本部分的学习可以掌握从事软件测试工作必备的知识。
2、功能自动化测试技术,本篇主要讲解使用RobotFramework+Selenium进行自动化验收...
分类:
其他好文 时间:
2014-07-12 20:15:58
阅读次数:
216