最近做了一个从网络上抓取数据的一个小程序。主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中。也找了一些资料,觉得没有一个很好的,全面的例子。因此在这里做个笔记提醒自己。首先需要一个jsoup的jar包,我用的1.6.0。。下载地址为:http://pan.baidu.com/s/1...
分类:
编程语言 时间:
2014-10-20 19:01:04
阅读次数:
255
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:
编程语言 时间:
2014-10-17 02:11:54
阅读次数:
306
需求:客户的数据同时存在在另外一个不可控的系统中,需要和当前系统同步。思路:自动登录另外一个系统,然后抓取数据,同步到本系统中。技术点:模拟用户登录;保存登录状态;抓取数据/// /// visit the target url /// /// ...
最近想在网上抓取数据做研究,刚好会一点python,就让我们来看一种比较简单的实现方法。
比如我要抓取奥巴马每周的演讲内容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html,如果手动提取,就需要一个个点进去,再复制保存,非常麻烦。
那有没有一步到位的方法呢,用python这种强大的语言就能快速实现。...
分类:
编程语言 时间:
2014-10-02 19:45:23
阅读次数:
405
$url?=?$_POST[‘url‘];
??$ch?=?curl_init();
??$timeout?=?5;
??curl_setopt?($ch,?CURLOPT_URL,?$url);
??curl_setopt?($ch,?CURLOPT_RETURNTRANSFER,?1);
??curl_setopt?($ch,?C...
分类:
Web程序 时间:
2014-09-28 15:26:53
阅读次数:
171
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:
编程语言 时间:
2014-09-22 02:43:01
阅读次数:
301
package parser;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamRead...
分类:
Web程序 时间:
2014-09-21 03:56:10
阅读次数:
211