package parser;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamRead...
分类:
Web程序 时间:
2014-09-21 03:56:10
阅读次数:
211
工作之余,学习了一下正则表达式,鉴于实践是检验真理的唯一标准,于是便写了一个利用正则表达式抓取百度百家文章的例子,具体过程请看下面源码: 一:获取百度百家网页内容 1 public List GetUrl() 2 { 3 try 4 ...
分类:
Web程序 时间:
2014-09-20 11:05:07
阅读次数:
264
其实这个工具我已经用过很多年了,还叫Ethereal的时候就在用。今天由于实验需要,要抓一下在localhost间的包,结果发现获取不到。解决方法也很简单,在cmd下输入:
route add 192.168.X.X mask 255.255.255.255 192.168.X.1 metric 1
即可。前后两个分别是本机的IP地址和网关地址。具体原理就不详细介绍了,感兴趣的童鞋可以参看...
分类:
其他好文 时间:
2014-09-19 21:12:26
阅读次数:
203
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
当系统发生Kernel Exception、System Server异常等问题时,MTK内部机制会抓取相关异常调试信息,产生对应的DB文件,放到aee_exp文件夹下。而在不同的情况下,aee_exp文件夹所在的路径以及aee_exp文件夹下的DB文件个数都会有所不同。
一. DB的路径
DB的路径只有两种路径:/data/aee_exp或者/sdcard/mtklog/a...
分类:
数据库 时间:
2014-09-19 12:07:05
阅读次数:
637
WebRequest request = WebRequest.Create("http://1.bjapp.sinaapp.com/play.php?a=" + PageUrl); WebResponse response = request.GetR...
三个函数虽然都是读取资源的函数,但各自的应用场景不同。 curl多用于互联网网页之间的抓取,fopen多用于读取文件,而file_get_contents多用于获取静态页面的内容。 1. fopen /file_get_contents?每次请求都会重...
分类:
其他好文 时间:
2014-09-18 16:59:44
阅读次数:
204
通过网站访问日志我们可以看见很多蜘蛛爬行记录。搜索引擎都遵守互联网robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则,以及设置搜索引擎蜘蛛Spider抓取内容规则。通过robots.txt来进行限制,首先在网站跟目录下面建立一个robots...
分类:
其他好文 时间:
2014-09-18 16:58:24
阅读次数:
195
cURL是利用url语法规定传输文件和数据的工具。php中有curl拓展,一般用来实现网络抓取,模拟发送get post请求,文件上传。 在php中建立curl的基本步骤如下: 1 初始化 2 设置选项,包括url 3 执行并获取结果 4 释放curl句柄。 在工作和学...
分类:
Web程序 时间:
2014-09-17 16:47:52
阅读次数:
229
客户端C到服务器S的icmp包经过本机P时被截获,在上一篇中已经介绍了如何获取原始目的地址,你必须将数据转发到原始目的地址S,并且在收到从原始目的地址的响应之后转发给客户端。此时,要实现透明代理,则你返回给客户端的icmp响应的源地址必须为客户端请求的原始目的地址S。由于使用的是raw socket...
分类:
其他好文 时间:
2014-09-17 10:02:12
阅读次数:
255