1 package util; 2 3 import java.io.BufferedReader; 4 import java.io.File; 5 import java.io.FileNotFoundException; 6 import java.io.FileOutputStream; 7... ...
分类:
编程语言 时间:
2018-12-12 22:09:55
阅读次数:
175
最近项目需求,做一些新闻站点的爬取工作。1.简单的jsoup爬取,静态页面形式; 通过jsop解析返回Document 使用标签选择器,选择页面标签中的值,即可获取页面内容。 2.延时加载,有些网站存在延时加载,表格内容,或者嵌入页面形式的加载的页面;属于jsop范围 获取到的是Document 使 ...
分类:
编程语言 时间:
2018-11-23 14:24:01
阅读次数:
193
解决使用xshell工具ssh到服务器,vim编辑文件无法使用小键盘;
分类:
系统相关 时间:
2018-11-23 12:39:42
阅读次数:
177
网上查询了许许多多的博客,说利用 poi、iText、Jsoup、jdoctopdf、使用 jodconverter 来调用 openOffice 的服务来转换等等,我尝试了很多种,但要么显示不完全,要么可是可能有问题,使用这个 jacob 的方法我最开始是最不想用的,因为它要导入 dll 文件,但 ...
分类:
编程语言 时间:
2018-11-14 16:43:16
阅读次数:
236
罗列java相关关键词 Java、eclipse、jsonp、jQuery、restful web apis、shiro、servlet、jsp、junit、vue.js、nginx、apache tomcat、bootstrap、json、kindeditor、jQuery easyUI、html ...
分类:
编程语言 时间:
2018-10-30 17:05:49
阅读次数:
146
1.日志乱码处理 中文乱码需要修改四个部分:1.idea安装目录下的bin/idea64.exe.vmoptions和bin/idea.exe.vmoptions追加-Dfile.encoding=UTF-8 2.log4j对应的properties文件中需要增加log4j.appender.F.E ...
分类:
数据库 时间:
2018-10-29 17:56:51
阅读次数:
242
对,就是十分钟,没有接触过爬虫的你,肯定一脸懵逼,感觉好高深的样子,一开始我也有点懵,但用了以后发现还是很简单的,java爬虫框架有很多,让我有种选择困难症,通过权衡比较还是感觉jsoup比较好用些,简单强大,怎么简单强大呢?看了后面你就知道了。 为什么要给大家讲一下使用jsoup呢?一是为了大家少 ...
分类:
Web程序 时间:
2018-10-27 21:20:00
阅读次数:
295
最近,跟着一个视频来学习,视频上爬取36kr这个网站,我也跟着写了,感觉挺简单的,使用Jsoup很快就拿到页面上的文字。谁知再分析网页获得自己需要的数据的时候,只能获得一个根标签,里面什么也没有,第一次爬虫遇到这样的问题,顿时懵逼了。问了几个人之后,自己明白了这是因为我要抓取的页面数据,它是使用re ...
分类:
其他好文 时间:
2018-10-27 00:18:46
阅读次数:
171
用Jsoup在获取一些网站的数据时,起初获取很顺利,但是在访问某浪的数据是Jsoup报错,应该是请求头里面的请求类型(ContextType)不符合要求。 请求代码如下: private static void testOuGuanMatch() throws IOException{ Docume ...
分类:
移动开发 时间:
2018-10-23 18:01:38
阅读次数:
191
根据微信公众号的推文链接地址,对文章内容进行爬取,利用jsoup解析文章源代码,加上结合xpth提取文文章信息, 利用正则表达式读取文章发表时间。 Jsoup ...
分类:
编程语言 时间:
2018-10-10 23:58:39
阅读次数:
273