码迷,mamicode.com
首页 >  
搜索关键字:爬虫学习    ( 274个结果
[爬虫学习笔记]基于 SimHash 的去重复处理模块ContentSeen的构建
Internet上的一些站点常常存在着镜像网站(mirror),即两个网站的内容一样但网页对应的域名不同。这样会导致对同一份网页爬虫重复抓取多次。为了避免这种情况,对于每一份抓取到的网页,它首先需要进入ContentSeen模块。该模块会判断网页的内容是否和已下载过的某个网页的内容一致,如果一致,则... ...
分类:其他好文   时间:2016-09-13 20:52:41    阅读次数:404
[爬虫学习笔记]ScrapySharp简单封装为Requester
为了便于使用及日后的扩展,将Scrapy简单封装为了Requester,具体代码如下: using System; using System.Collections.Generic; namespace Crawler.Protocol { public class Requester { priv... ...
分类:其他好文   时间:2016-09-13 01:35:04    阅读次数:314
[爬虫学习笔记]MemoryCache缓存的用法学习
在完成了DNS解析模块之后,我意识到了DNS缓存机制也很有必要。在Redis,Memcache,和.Net自带的Cache之间,考虑到部署问题,最终选择了后者,之前在学习Web及开发的过程中用过System.Web.Caching.Cache这个类库,但是这次的爬虫程序我打算部署为桌面软件,所以选用... ...
分类:系统相关   时间:2016-09-11 14:23:17    阅读次数:323
[爬虫学习笔记]C#基于ARSoft.Tools.Net的DNS解析模块(半成品)
最近在做爬虫的作业,今天学习的内容是关于DNS解析模块的制作的。使用的库为ARSoft.Tools.Net,它是一个非常强大的开源DNS控件库,包含.Net SPF validation, SenderID validation以及DNS Client、DNS Server接口。使用该接口可轻松实现... ...
分类:Windows程序   时间:2016-09-11 01:38:56    阅读次数:291
Python 爬虫入门(requests)
相信最开始接触Python爬虫学习的同学最初大多使用的是urllib,urllib2。在那之后接触到了第三方库requests,requests完全能满足各种http功能,真的是好用爆了 :D 他们是这样说的: “Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 ...
分类:编程语言   时间:2016-08-27 12:38:53    阅读次数:239
Python 爬虫学习2
这是小白学习笔记....大神勿喷。 本次学习糗事百科的网络爬虫。 http://blog.csdn.net/pleasecallmewhy/article/details/8932310 因为那个糗事百科网页改版了,content类中已经没有title...所以源码也有所改动。 所以找到一个改进版的 ...
分类:编程语言   时间:2016-08-26 19:44:32    阅读次数:260
Python 爬虫学习1
一个简单的百度贴吧爬虫程序: 代码: 学习笔记: 定义一个百度函数,这个函数可以将你所要爬虫的贴吧网页保存到本地。 函数三个参数: sName为保存到本地的文件名 string.zfill(i,5)保证文件名为6位数字 sName = string.zfill(i,5) + '.html'#自动填充 ...
分类:编程语言   时间:2016-08-24 17:27:01    阅读次数:201
Python爬虫学习笔记(一)
Python是个功能很强大,也很齐全的语言,这在我当初学的时候是不了解的。想想半年前学习python的初衷,无非是是因为ArcGIS提供了python脚本的编译环境,当我知道ArcToolbox里那些功能强大的工具,有一部分竟然就是用所谓python写出来的,自然也就想着去尝试,简化那些冗杂的工作,... ...
分类:编程语言   时间:2016-08-22 21:27:50    阅读次数:170
python网络爬虫学习资料
第一:Python爬虫学习系列教程(来源于某博主:http://cuiqingcai.com/1052.html) Python版本:2.7 整体目录: 一、爬虫入门 1. Python爬虫入门一之综述 2. Python爬虫入门二之爬虫基础了解 3. Python爬虫入门三之Urllib库的基本使 ...
分类:编程语言   时间:2016-08-21 18:29:51    阅读次数:276
python爬虫学习(3)_模拟登陆
1.登陆超星慕课,chrome抓包,模拟header,提取表单隐藏元素构成params。 主要是验证码图片地址,在js中发现由js->new Date().getTime()时间戳动态生成url,python对应time.time(),生成验证码图片url,图片下载在本地,手动输入。代码如下: 2. ...
分类:编程语言   时间:2016-08-20 21:43:01    阅读次数:290
274条   上一页 1 ... 20 21 22 23 24 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!