所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:
其他好文 时间:
2014-07-19 15:13:58
阅读次数:
241
刚好上两周班,现在记录一下吧。 第一周:全部是培训,关于系统的架构、BOSS、NGBOSS、编码规范、开发规范、项目文档等。听了之后对公司的技术还是有一定的了解。至少知道公司不只一个web站。 第二周:进组了,刚开始知道自己进了B部A组,不太适应。经过一周熟悉业务和文档,知道本组的业务是:抓取别人的...
分类:
其他好文 时间:
2014-07-19 15:01:03
阅读次数:
238
FSCapture是一款抓屏工具,附带的其他两个小功能:取色器和屏幕放大镜。对抓取的图像提供缩放、旋转、减切、颜色调整等功能。只要点点鼠标就能随心抓取屏幕上的任何东西,拖放支持可以直接从系统、浏览器或其他程序中导入图片。 取色器 现在网上各式各样的取色器应该不少了,包括之前一直用的蓝色经典推荐的.....
分类:
其他好文 时间:
2014-07-18 20:17:37
阅读次数:
246
如何post数据//假设我们去post一个表单到http://www.example.com/sendSMS.php//提交内容 一个是电话号码,一个短信内容
分类:
Web程序 时间:
2014-07-18 16:30:22
阅读次数:
204
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.UnsupportedEncodingException;import java.net....
分类:
编程语言 时间:
2014-07-18 10:31:36
阅读次数:
339
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
“黄金矿工Ⅲ之神秘宝藏”是使用OGEngine开发的休闲类游戏,是黄金矿工系列的经典再现!无穷的宝藏等待你的挖掘。做好准备了吗?这里是无穷的金矿,闪耀的钻石迷惑你的双眼,更有百媚的购物小姐令你垂涎,她将提供丰富的工具,有助于你在限定时间内抓取到更多的宝藏,增加了“..
分类:
其他好文 时间:
2014-07-17 17:06:01
阅读次数:
158
网站会因为各种原因而导致宕机,具体表现为服务器没有响应,用户打不开网页,域名解析出错,搜索引擎抓取页面失败,返回各种HTTP错误代码。网站宕机可能带来搜索引擎的惩罚,网站服务器不稳定与百度关系文章中就是一个生动的例子。为了最大限度地避免损失,我们需要在网站宕机后尽快得到提醒,同时在最短的时间恢复网站...
分类:
Web程序 时间:
2014-07-17 14:08:52
阅读次数:
508
把nutch的源代码导入到eclipse工程自定义抓取任务。下载源码:http://svn.apache.org/repos/asf/nutch/从svn下载想要的nutch源码,这里选择nutch-1.1编译源码:使用ant编译源代码,编译成功,可以看到多了一个build目录,其中有plugins...
分类:
Web程序 时间:
2014-07-16 15:22:05
阅读次数:
236
最近,有个朋友说,想在一些页面上获取一些关键性得信息。比如,电话,地址等等。一个个页面去找 又很麻烦。这时候,想起了 何不去用“爬虫”去抓取一些想要得东西。省事,省里。好,今天 我们就讲讲,关于爬虫得一些东西。
这里 自己也是,看了一些关于爬虫得知识,正好,这几日闲来没事。做了一个功能小得爬虫。
这里是使用 java来进行编写得 首先 我们来介绍下。使用得框架,jdk1.6,...
分类:
其他好文 时间:
2014-07-16 10:08:54
阅读次数:
267