码迷,mamicode.com
首页 >  
搜索关键字:JSOUP 乱码处理    ( 603个结果
网页解析Jsoup简单使用
public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); /** * 获取 */ Fil...
分类:Web程序   时间:2014-12-21 23:32:41    阅读次数:232
关于开发简易搜索引擎的一些总结和思考
在大学期间,有段时间对搜索还是比较感兴趣的,就研究了几天。后来,发现搜索引擎太难搞了,分词啥的,好多都是纯算法。感觉没啥意思,so就半途而废,玩别的技术领域去了。  大学毕业加入秒针,对广告和监测有了一定的兴趣。so又想搞搜索引擎了,大概的目标就是,从网上爬去内容,建立索引,网友搜索、点击、广告点击等监测统计,存到数据库。  这个项目,还真是做了,做完了一个Demo版。借助jsoup和自己写几行代...
分类:其他好文   时间:2014-12-21 19:29:09    阅读次数:193
java实现豆瓣回帖机器人
最近一直帮老板写爬虫,写累了就寻思着找点乐子,碰巧平时喜欢逛豆瓣,就打算写一个自动回帖机器人,废话不多说我们进入正题:主要用到2个开源工具:Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...
分类:编程语言   时间:2014-12-21 12:36:59    阅读次数:232
图书检索功能实现---图书馆客户端
今天完成了图书的检索功能。相对来说,还是有点复杂,因为图书检索结果页面的Html并不是那么规范,解析时需要很大的耐心。 首先需要根据查询条件获取结果的HTML,查询条件可以有很多种,这里为了实用、方便,我特意限制了查询条件为:keyword、东校区、可借出 获取结果HTML的方法如下: /** * 根据关键字检索图书 * * 检索可以是没有登录的情况,也可以是登录后的情况。 ...
分类:其他好文   时间:2014-12-20 17:00:06    阅读次数:258
获取个人借阅信息---图书馆客户端
在上一篇利用jsoup解析个人信息----图书馆客户端,获得个人基本信息后,便有了进一步的需求:获取当前借阅的详细信息 获取的方法还是一样的,利用jsoup解析借阅信息页面,获得所需数据,封装成LendBookInfo,然后将其加入一个List中。 借阅信息详情页如下: 模拟get请求得到其html字符串,代码较简单 /** *获取当前借阅信息。 必须在login()调用之后 ...
分类:其他好文   时间:2014-12-19 09:20:18    阅读次数:189
利用jsoup解析个人信息----图书馆客户端
上一篇HTTPclient模拟登陆交大图书馆 解决了登陆,登陆之后便可以查看个人信息。个人信息条目较少,如图: 主要就是:姓名、电话、目前借书、积欠金额。 查看其html代码: 下面开始进行解析: 代码 package com.ali.login.spider; import org.jsoup.Jsoup; import org.jsoup.nodes.Do...
分类:Web程序   时间:2014-12-18 22:24:38    阅读次数:297
Jsoup 的认识和简单使用
之前做学校软件协会APP的时候,由于自己不会在服务端写接口,所以服务端一直是由另一位Z同学完成的,但是突然Z同学被老师调到泸州帮以前的学长做一个月的临时web开发去了,所以协会APP的接口只做了一部分就没了。我也很是无奈啊,想自己边学边做,但是时间不允许,马上就要做毕业设计了,而且还要帮老师写教.....
分类:Web程序   时间:2014-12-15 15:03:01    阅读次数:236
jsoup httpclient 爬取网页并下载google图标
jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...
分类:Web程序   时间:2014-12-07 23:04:12    阅读次数:316
JAVA爬虫 WebCollector
爬虫简介: WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强的扩展性,用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup,可进行精准的网页解析。 量级: ...
分类:编程语言   时间:2014-12-03 23:35:39    阅读次数:609
使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件
Tika 是2008年才产生的apache的一个项目,主要用于打开各种不同类型的文档,获取其文本信息。可以解析多种类型(word、pdf、txt 、html等)文件! 甚至可以通过解析url,获取其网页信息。最后把其文本信息提起出来。这方面Tika有点像Jsoup。。一般情况下,直接对word、pdf等文件直接创建索引是不对的,用luke工具查看之后,出现一大推乱七八糟的term。这个时候就可以用Tika 去在对其创建索引之前,转化处理其文本信息。 Luke 这个工具很强大,luke是一个查询索引的工具...
分类:其他好文   时间:2014-12-02 22:43:16    阅读次数:420
603条   上一页 1 ... 51 52 53 54 55 ... 61 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!