这里用的是jsoup1.6.3jar 研究了一天时间,说说碰到的难题。我这里抓取的是以.jpg为主的图片. 当时没有获取图片的后缀名,每次往电脑上下载图片总是新建一个空的文件夹。一定要获取到图片的后缀名才行。 还有一点就是我这个方法不一定适合所有的网站,不同网站的src地址不一样,需要注意一下。 我 ...
分类:
Web程序 时间:
2016-11-11 20:06:45
阅读次数:
256
用java做了一个小爬虫的dome,感觉挺好玩的样子。得好好学学爬虫这门技术 1 java 原生的代码实现爬虫 这是将淘宝首页 a 标签的文字爬下来了 2 java 相关的框架封装的方法,首先得先引入架包jsoup-1.7.3.jar 网页通过get 方法来提交数据的爬取方式 爬出来是淘宝想应的链接 ...
分类:
其他好文 时间:
2016-10-23 02:16:02
阅读次数:
305
1、测试网页:http://ajax.mianbao99.com/vod-showlist-id-8-order-time-c-3719-p-1.html ZC: 直接查看的话,使用这个链接:http://www.mianbao99.com/vod-showlist-id-8-order-time- ...
分类:
Web程序 时间:
2016-10-19 17:25:21
阅读次数:
512
1、百度搜索“Android 抓网页”,得到的结果: 1.1、http://www.jianshu.com/p/7d658636764a jsoup 1.2、http://blog.sina.com.cn/s/blog_6b04c8eb01013v9n.html HttpURLConnection ...
分类:
Web程序 时间:
2016-10-19 17:12:54
阅读次数:
206
1、方案选择: 1.1、HttpClient库 获取 原始的 json数据 1.2、JSON库 取得 我们需要的HTML内容 1.3、使用 jsoup 解析 我们取得的HTML内容 2、不直接使用 jsoup,原因: 2.1、它会自动补全 HTML的头和尾(<html/><body/>等),jsou ...
分类:
Web程序 时间:
2016-10-19 16:41:12
阅读次数:
151
java项目有时候我们需要别人网页上的数据,怎么办?我们可以借助第三方架包jsou来实现,jsoup的中文文档,那怎么具体的实现呢?那就跟我一步一步来吧 最先肯定是要准备好这个第三方架包啦,下载地址,得到这个jar后在需要怎么做呢?别急,我们慢慢来 将jsoup.jar拷贝到项目的WebRoot—> ...
分类:
Web程序 时间:
2016-10-12 19:11:44
阅读次数:
206
1、百度搜索“Android 抓网页”,得到的结果: 1.1、http://www.jianshu.com/p/7d658636764a jsoup 1.2、http://blog.sina.com.cn/s/blog_6b04c8eb01013v9n.html HttpURLConnection ...
分类:
Web程序 时间:
2016-09-27 00:30:30
阅读次数:
168
1、概述 最近想做一个校园助手类的APP,由于第一次做,所以打算先把每个功能单独实现,防止乱了阵脚。利用教务处登录获取课表和成绩等是一个基本功能,所以以获取课表为例实现了这个功能。完整代码点这里,尝试了好几次的,所以写的比较乱。 2、涉及的关键知识 首先,明确获取课表的流程:其实,获取课表就是让手机 ...
分类:
Web程序 时间:
2016-09-16 00:21:10
阅读次数:
447
花了一天半时间将教务处上的课程表爬取下来,结果在今天晚上玩git时给误删了.真是蠢之极矣.北航教务处网站选课就是点击单选按钮,最后也不以课表的形式展示给人们.于是通过登录,访问网页,用jsoup解析网页上的课程,并以比较美观的形式进行展示.其中登录模块进行验证码破解,只需要输入用户名和密码,验证码自 ...
分类:
其他好文 时间:
2016-09-08 00:36:16
阅读次数:
172
一、 JSOUP简介 在以往用java来处理解析HTML文档或者片段时,我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP,以后的处理HTML的内容只需要使用JSOUP就已经足够了,JSOUP有更快的更新,更 ...
分类:
Web程序 时间:
2016-08-26 06:41:40
阅读次数:
421