仅仅是为了总结与学习。XML文件在我们的开发项目中经常使用,下面写了DOM解析的小例子。DomTestFile.xml文件如下: 测试1 测试2 测试3 测试类如下: 1 package test.dom; 2 3 import java.io.I...
分类:
编程语言 时间:
2015-01-03 21:00:21
阅读次数:
183
这两天弄了一下jsoup 感觉蛮好弄的,这里就分享一下用到的jar包是jsoup-1.8.1.jar 可以去官网下载,我用的是目前最新的版本,我获取的以下的网址这是一个新闻网站,内容比较好获取,也更新得快http://www.xinhuanet.com/xhjj.htm这里需要说明一下,并没有其他用...
分类:
Web程序 时间:
2015-01-01 13:40:02
阅读次数:
265
运用httpclient3+jsoup获取正方教务系统课表import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;impor...
分类:
Web程序 时间:
2014-12-31 00:49:57
阅读次数:
551
1、往项目web.xml中增加以下的代码:XssFiltercom.jf.app.utils.XssFilterXssFilter/*2、网上下载一个jar包:jsoup-1.7.2.jar并引入至项目。3、往项目增加两个类:XssFilter.java和XssHelper.java。百度下,有很多...
分类:
其他好文 时间:
2014-12-29 11:37:46
阅读次数:
151
本次推荐的组合为xml.dom.minidom和xpath。其中xml.dom.minidom为python的标准库,无须安装。xpath为Google出品的开源项目py-dom-xpath。 安装py-dom-xpath:从https://py-dom-xpath.googlecode.co...
分类:
编程语言 时间:
2014-12-29 06:30:45
阅读次数:
251
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser...
分类:
Web程序 时间:
2014-12-27 22:56:20
阅读次数:
221
public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); /** * 获取 */ Fil...
分类:
Web程序 时间:
2014-12-21 23:32:41
阅读次数:
232
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。 大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。 这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:
其他好文 时间:
2014-12-21 19:29:09
阅读次数:
193
最近一直帮老板写爬虫,写累了就寻思着找点乐子,碰巧平时喜欢逛豆瓣,就打算写一个自动回帖机器人,废话不多说我们进入正题:主要用到2个开源工具:Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...
分类:
编程语言 时间:
2014-12-21 12:36:59
阅读次数:
232
今天完成了图书的检索功能。相对来说,还是有点复杂,因为图书检索结果页面的Html并不是那么规范,解析时需要很大的耐心。
首先需要根据查询条件获取结果的HTML,查询条件可以有很多种,这里为了实用、方便,我特意限制了查询条件为:keyword、东校区、可借出
获取结果HTML的方法如下:
/**
* 根据关键字检索图书
*
* 检索可以是没有登录的情况,也可以是登录后的情况。 ...
分类:
其他好文 时间:
2014-12-20 17:00:06
阅读次数:
258