爬取网站的时候 conn = Jsoup.connect(url).timeout(5000).get();直接用get方法,有些网站可以正常爬取。 但是有些网站报403错误,403是一种在网站访问的过程中,常见的错误提示。表示资源不可用,服务器理解客户对的请求,但是拒绝处理它,通常由服务器上文件或 ...
分类:
Web程序 时间:
2018-05-17 15:21:13
阅读次数:
602
采用maven工程,免着到处找依赖jar包 直接上代码RenWu.class: 导出到本地文件(末尾追加)的封装方发类FileUtil.class: ...
分类:
Web程序 时间:
2018-05-09 10:12:31
阅读次数:
440
1.maven依赖 2.建立项目 建立两个java文件。 第一部分,HtmlUnitforBD.java:主要实现摘取百度搜索的URL链接; 第二部分,transURLtoINFO.java:摘取链接的具体内容。 3.观察网页内容 观察网页源码: 3.1百度输入框参数:id=kw 3.2“百度一下” ...
分类:
编程语言 时间:
2018-05-08 19:22:56
阅读次数:
201
最近手头在做一些东西,需要一个全国各地的地域数据,从省市区到县镇乡街道的。各种度娘,各种谷歌,都没找到一个完整的数据。最后功夫不负有心人,总算找到一份相对来说比较完整的数据,但是这里的数据也只是精确到镇级别,没有村一级的数据(后来通过分析数据源我知道了为什么,呵呵),在加上博主提供的有些数据存在冗余 ...
分类:
Web程序 时间:
2018-05-07 21:05:23
阅读次数:
390
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就被第二代代替了! 二,Jsoup 需要的jar包: 代码如下: 参考Jsoup的文档:链接http: ...
分类:
编程语言 时间:
2018-05-03 19:48:12
阅读次数:
628
用Java获取页面,然后用Jsoup来得到自己想要的数据,再保存到数据库(我用了Hibernate的框架),最后用自己的网站显示这些数据 豆瓣本身貌似提供了给开发者使用的接口,但是我不想去注册账号(我还没有豆瓣账号),,,就想自己通过网页源码分析,然后拿到自己想要的数据。 在看豆瓣的网页源码的时候, ...
分类:
Web程序 时间:
2018-05-01 20:43:33
阅读次数:
509
处理表单 一、首先写一个表单 注意这里的 form 标签并没有设置 action 属性,这种情况下当表单提交时他会提交到与展现时相同的url路径上,即它会提交到 /spitter/register 上。 所以我们在该Controller中添加一个处理POST请求的 register 方法 二、然后编 ...
分类:
编程语言 时间:
2018-04-30 23:30:34
阅读次数:
255
Day15 反射 1.1 类的加载 当程序要使用某个类时,如果该类还未被加载到内存中,则系统会通过加载,连接,初始化三步来实现对这个类进行初始化。 l 加载 就是指将class文件读入内存,并为之创建一个Class对象。 任何类被使用时系统都会建立一个Class对象 l 连接 验证是否有正确的内部结 ...
分类:
其他好文 时间:
2018-04-25 15:54:29
阅读次数:
155
使用Maven 自动下载jar包 右键单击项目,将项目 转换成Maven 项目 然后进去Maven官网 http://mvnrepository.com/ 这里有大量的jar包供我们使用,比如我现在要下载一个jsoup的jar包 搜索jsoup ,点击第一个 然后这里会有版本号 ,我们点击最新的版本 ...
分类:
编程语言 时间:
2018-04-25 10:55:44
阅读次数:
208
cal.xml<车辆清单><汽车><车牌出产时间="2010年">奥迪</车牌><产地>北京</产地><单价>30</单价></汽车><汽车><车牌出产时间="2012年">本田</车牌><产地>深圳</产地><单价>6
分类:
其他好文 时间:
2018-04-16 21:57:54
阅读次数:
148