采用maven工程,免着到处找依赖jar包 直接上代码RenWu.class: 导出到本地文件(末尾追加)的封装方发类FileUtil.class: ...
分类:
Web程序 时间:
2018-05-09 10:12:31
阅读次数:
440
1.maven依赖 2.建立项目 建立两个java文件。 第一部分,HtmlUnitforBD.java:主要实现摘取百度搜索的URL链接; 第二部分,transURLtoINFO.java:摘取链接的具体内容。 3.观察网页内容 观察网页源码: 3.1百度输入框参数:id=kw 3.2“百度一下” ...
分类:
编程语言 时间:
2018-05-08 19:22:56
阅读次数:
201
最近手头在做一些东西,需要一个全国各地的地域数据,从省市区到县镇乡街道的。各种度娘,各种谷歌,都没找到一个完整的数据。最后功夫不负有心人,总算找到一份相对来说比较完整的数据,但是这里的数据也只是精确到镇级别,没有村一级的数据(后来通过分析数据源我知道了为什么,呵呵),在加上博主提供的有些数据存在冗余 ...
分类:
Web程序 时间:
2018-05-07 21:05:23
阅读次数:
390
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就被第二代代替了! 二,Jsoup 需要的jar包: 代码如下: 参考Jsoup的文档:链接http: ...
分类:
编程语言 时间:
2018-05-03 19:48:12
阅读次数:
628
一、maven中classnotfound1.其实是jar包问题,maven默认会把jar包编译到target下面,而tomcat需要在WEB-INF目录下使用它,所以发现没有的问题需要在pom.xml中配置<plugin><artifactId>maven-compiler-plugin</artifactId><configuration><
分类:
编程语言 时间:
2018-05-02 17:01:55
阅读次数:
144
用Java获取页面,然后用Jsoup来得到自己想要的数据,再保存到数据库(我用了Hibernate的框架),最后用自己的网站显示这些数据 豆瓣本身貌似提供了给开发者使用的接口,但是我不想去注册账号(我还没有豆瓣账号),,,就想自己通过网页源码分析,然后拿到自己想要的数据。 在看豆瓣的网页源码的时候, ...
分类:
Web程序 时间:
2018-05-01 20:43:33
阅读次数:
509
处理表单 一、首先写一个表单 注意这里的 form 标签并没有设置 action 属性,这种情况下当表单提交时他会提交到与展现时相同的url路径上,即它会提交到 /spitter/register 上。 所以我们在该Controller中添加一个处理POST请求的 register 方法 二、然后编 ...
分类:
编程语言 时间:
2018-04-30 23:30:34
阅读次数:
255
1.爬虫流程图 2.简单爬虫整个网页的内容 --python2 3.中文乱码处理 4. 伪装请求【伪装成浏览器】User-Agent头 5. 解析网页内容 5.1 正则 import re 创建正则表达式对象:pattern = re.comple(' \d+\.\d+ ', re.S) 默认匹配没 ...
分类:
其他好文 时间:
2018-04-29 15:25:32
阅读次数:
220
使用Maven 自动下载jar包 右键单击项目,将项目 转换成Maven 项目 然后进去Maven官网 http://mvnrepository.com/ 这里有大量的jar包供我们使用,比如我现在要下载一个jsoup的jar包 搜索jsoup ,点击第一个 然后这里会有版本号 ,我们点击最新的版本 ...
分类:
编程语言 时间:
2018-04-25 10:55:44
阅读次数:
208
JSOUP中文文档:http://www.open-open.com/jsoup/ 推荐博客:Jsoup解析Html中文文档 代码示例 ...
分类:
Web程序 时间:
2018-04-16 20:38:10
阅读次数:
230