在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:
其他好文 时间:
2014-08-03 12:40:45
阅读次数:
194
自从上高中以来只有去年的生日是在家里度过的,其余的这些年生日都是在学校度过,每当这个时候都在打题。 高中是在奥赛组做NOIP题, 现在是在做ACM题。仔细想想这些年其实自己过得挺滋润的,还算顺利。虽然高三的一系列保送生考试给自己带来了一些挫折,上帝对每个人都是公平的, 那也许就是让我所经历的高考.....
分类:
其他好文 时间:
2014-08-02 20:54:44
阅读次数:
182
本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。
分类:
其他好文 时间:
2014-08-02 17:55:13
阅读次数:
290
import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....
分类:
编程语言 时间:
2014-07-31 12:50:26
阅读次数:
318
2014-7-30 农历7月初4,生日。内容:金鼎轩吃饭;亿旺中影看《后会无期》。电影有一个线索: 离开----遇到-----离开-----后会。一段长长旅程,一出滑稽荒诞的故事。1、在老家东极岛烧房子离开家乡;------------浩汉哥,你把你家的吗煤气罐搬出来了没有?2、找到原来的邻居:大城...
分类:
其他好文 时间:
2014-07-31 12:33:26
阅读次数:
221
本文参考链接详细介绍如何使用Jsoup包抓取HTML数据,是一个纯java工程,并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。 杂家前文就又介绍用HTTP访问百度主页得到html的string字符串,但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍,这个csdn的客户端app分首页、业界、...
分类:
移动开发 时间:
2014-07-31 03:03:25
阅读次数:
430
java 程序在 netbeans 中运行与单独运行的结果不一样...
分类:
编程语言 时间:
2014-07-30 14:53:23
阅读次数:
353
import webbrowser as web
import time
import os
i = 0
MAXNUM = 1
while i <= MAXNUM:
web.open_new_tab('要刷的网络地址')
os.system('taskkill /F /IM 浏览器文件名(chrome.exe)')
i += 1
else:...
分类:
编程语言 时间:
2014-07-29 22:08:12
阅读次数:
324
也许在读这一章节之前, 我无法想象生日对自己的影响有多大。今天阅读了《异类》的序言和第一章。概括来说,它阐述了一个明显却隐藏在生活中的规律——优势会逐渐积累,直到产生质变。就如马太福音里的“凡是有的,要加给他,让他多余;凡是没有的,要把他剩下的都夺过来。”故事从很简单的运动员选拔开始,作者例举了一个...
分类:
其他好文 时间:
2014-07-29 20:57:52
阅读次数:
234
需求:当页面加载时,“呼叫编号”保持不变,“任务号”自动更新,“接报时间”和“发生日期”自动设置为当天日期和时间,其它选项全部恢复为初始状态。
字段说明:
控件名称
值
控件名称
值
控件名称
值
反馈单登录
tab_4
任务号
hxcs_ftaskcode...
分类:
其他好文 时间:
2014-07-29 17:57:32
阅读次数:
196