Internet上的一些站点常常存在着镜像网站(mirror),即两个网站的内容一样但网页对应的域名不同。这样会导致对同一份网页爬虫重复抓取多次。为了避免这种情况,对于每一份抓取到的网页,它首先需要进入ContentSeen模块。该模块会判断网页的内容是否和已下载过的某个网页的内容一致,如果一致,则... ...
分类:
其他好文 时间:
2016-09-13 20:52:41
阅读次数:
404
为了便于使用及日后的扩展,将Scrapy简单封装为了Requester,具体代码如下: using System; using System.Collections.Generic; namespace Crawler.Protocol { public class Requester { priv... ...
分类:
其他好文 时间:
2016-09-13 01:35:04
阅读次数:
314
在完成了DNS解析模块之后,我意识到了DNS缓存机制也很有必要。在Redis,Memcache,和.Net自带的Cache之间,考虑到部署问题,最终选择了后者,之前在学习Web及开发的过程中用过System.Web.Caching.Cache这个类库,但是这次的爬虫程序我打算部署为桌面软件,所以选用... ...
分类:
系统相关 时间:
2016-09-11 14:23:17
阅读次数:
323
最近在做爬虫的作业,今天学习的内容是关于DNS解析模块的制作的。使用的库为ARSoft.Tools.Net,它是一个非常强大的开源DNS控件库,包含.Net SPF validation, SenderID validation以及DNS Client、DNS Server接口。使用该接口可轻松实现... ...
相信最开始接触Python爬虫学习的同学最初大多使用的是urllib,urllib2。在那之后接触到了第三方库requests,requests完全能满足各种http功能,真的是好用爆了 :D 他们是这样说的: “Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 ...
分类:
编程语言 时间:
2016-08-27 12:38:53
阅读次数:
239
这是小白学习笔记....大神勿喷。 本次学习糗事百科的网络爬虫。 http://blog.csdn.net/pleasecallmewhy/article/details/8932310 因为那个糗事百科网页改版了,content类中已经没有title...所以源码也有所改动。 所以找到一个改进版的 ...
分类:
编程语言 时间:
2016-08-26 19:44:32
阅读次数:
260
一个简单的百度贴吧爬虫程序: 代码: 学习笔记: 定义一个百度函数,这个函数可以将你所要爬虫的贴吧网页保存到本地。 函数三个参数: sName为保存到本地的文件名 string.zfill(i,5)保证文件名为6位数字 sName = string.zfill(i,5) + '.html'#自动填充 ...
分类:
编程语言 时间:
2016-08-24 17:27:01
阅读次数:
201
Python是个功能很强大,也很齐全的语言,这在我当初学的时候是不了解的。想想半年前学习python的初衷,无非是是因为ArcGIS提供了python脚本的编译环境,当我知道ArcToolbox里那些功能强大的工具,有一部分竟然就是用所谓python写出来的,自然也就想着去尝试,简化那些冗杂的工作,... ...
分类:
编程语言 时间:
2016-08-22 21:27:50
阅读次数:
170
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一、爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使 ...
分类:
编程语言 时间:
2016-08-21 18:29:51
阅读次数:
276
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params。 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url,python对应time.time(),生成验证码图片url,图片下载在本地,手动输入。代码如下: 2. ...
分类:
编程语言 时间:
2016-08-20 21:43:01
阅读次数:
290