搜索关键字：JSOUP 乱码处理，搜索到603个结果！码迷,mamicode.com！

public static void main(String[] args) throws IOException { //System.out.println("Hello World!"); /** * 获取 */ Fil...

分类：Web程序时间：2014-12-21 23:32:41 阅读次数：232

在大学期间，有段时间对搜索还是比较感兴趣的，就研究了几天。后来，发现搜索引擎太难搞了，分词啥的，好多都是纯算法。感觉没啥意思，so就半途而废，玩别的技术领域去了。大学毕业加入秒针，对广告和监测有了一定的兴趣。so又想搞搜索引擎了，大概的目标就是，从网上爬去内容，建立索引，网友搜索、点击、广告点击等监测统计，存到数据库。这个项目，还真是做了，做完了一个Demo版。借助jsoup和自己写几行代...

分类：其他好文时间：2014-12-21 19:29:09 阅读次数：193

java实现豆瓣回帖机器人

最近一直帮老板写爬虫，写累了就寻思着找点乐子，碰巧平时喜欢逛豆瓣，就打算写一个自动回帖机器人，废话不多说我们进入正题:主要用到2个开源工具：Jsoup和httpclientStep 1:模拟登陆public static boolean login() throws IOException{ ...

分类：编程语言时间：2014-12-21 12:36:59 阅读次数：232

图书检索功能实现---图书馆客户端

今天完成了图书的检索功能。相对来说，还是有点复杂，因为图书检索结果页面的Html并不是那么规范，解析时需要很大的耐心。首先需要根据查询条件获取结果的HTML，查询条件可以有很多种，这里为了实用、方便，我特意限制了查询条件为：keyword、东校区、可借出获取结果HTML的方法如下： /** * 根据关键字检索图书 * * 检索可以是没有登录的情况，也可以是登录后的情况。 ...

分类：其他好文时间：2014-12-20 17:00:06 阅读次数：258

获取个人借阅信息---图书馆客户端

在上一篇利用jsoup解析个人信息----图书馆客户端，获得个人基本信息后，便有了进一步的需求：获取当前借阅的详细信息获取的方法还是一样的，利用jsoup解析借阅信息页面，获得所需数据，封装成LendBookInfo,然后将其加入一个List中。借阅信息详情页如下：模拟get请求得到其html字符串，代码较简单 /** *获取当前借阅信息。必须在login()调用之后 ...

分类：其他好文时间：2014-12-19 09:20:18 阅读次数：189

利用jsoup解析个人信息----图书馆客户端

上一篇HTTPclient模拟登陆交大图书馆解决了登陆，登陆之后便可以查看个人信息。个人信息条目较少，如图：主要就是：姓名、电话、目前借书、积欠金额。查看其html代码：下面开始进行解析：代码 package com.ali.login.spider; import org.jsoup.Jsoup; import org.jsoup.nodes.Do...

分类：Web程序时间：2014-12-18 22:24:38 阅读次数：297

Jsoup 的认识和简单使用

之前做学校软件协会APP的时候，由于自己不会在服务端写接口，所以服务端一直是由另一位Z同学完成的，但是突然Z同学被老师调到泸州帮以前的学长做一个月的临时web开发去了，所以协会APP的接口只做了一部分就没了。我也很是无奈啊，想自己边学边做，但是时间不允许，马上就要做毕业设计了，而且还要帮老师写教.....

分类：Web程序时间：2014-12-15 15:03:01 阅读次数：236

jsoup httpclient 爬取网页并下载google图标

jsoup下载地址http://www.jsoup.orghttpclient下载地址http://hc.apache.org/downloads.cgi其他jar包见附件Crawler package jsoup; import java.io.File; import java.io.F...

分类：Web程序时间：2014-12-07 23:04:12 阅读次数：316

JAVA爬虫 WebCollector

爬虫简介： WebCollector是一个无须配置、便于二次开发的JAVA爬虫框架（内核），它提供精简的的API，只需少量代码即可实现一个功能强大的爬虫。爬虫内核： WebCollector致力于维护一个稳定、可扩的爬虫内核，便于开发者进行灵活的二次开发。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。量级： ...

分类：编程语言时间：2014-12-03 23:35:39 阅读次数：609

使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件

Tika 是2008年才产生的apache的一个项目，主要用于打开各种不同类型的文档，获取其文本信息。可以解析多种类型(word、pdf、txt 、html等)文件! 甚至可以通过解析url，获取其网页信息。最后把其文本信息提起出来。这方面Tika有点像Jsoup。。一般情况下，直接对word、pdf等文件直接创建索引是不对的，用luke工具查看之后，出现一大推乱七八糟的term。这个时候就可以用Tika 去在对其创建索引之前，转化处理其文本信息。 Luke 这个工具很强大，luke是一个查询索引的工具...

分类：其他好文时间：2014-12-02 22:43:16 阅读次数：420

共603条上一页 1 ... 51 52 53 54 55 ... 61 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)