对于网络营销推广和SEO的朋友来说,数据抓取和模拟访问都是必备的工作,这两种方式都需要有大量的IP资源支持,很多用户在一些网站上面批量注册帐号、发布留言评论都会遇到系统的IP限制,限制批量注册、发布消息,想换IP还得要重启路由器才行,效率大大降低,这个时候就需要一个IP切换软件来更换本地上网IP地址。我们今天就以芝麻软件纯净版为例。1、下载2、注册3、登录4、整体页面5、一键换IP/断开/定时切换
分类:
其他好文 时间:
2018-11-13 20:13:41
阅读次数:
221
本篇文章将从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效,抓过微博数据的同学应该都知道微博的反爬虫能力,也知道微博数据抓取的瓶颈在哪里。我在知乎上看过一些同学的说法,把微博的数据抓取难度简单化了,我只能说,那是你太naive,没深入了解和长期抓取而已。本文将会以PC端微博进行讲解,因为移动端微博数据不如PC短全面,而且抓取和解析难度都会小一些。文章比较长,由于篇幅所限,文章并没
分类:
其他好文 时间:
2018-10-31 15:43:36
阅读次数:
219
项目要做一个四个层级栏的数据抓取,而且点击查询后数据会在新跳出的网页。 源码如下 注释解释 ...
分类:
编程语言 时间:
2018-10-19 00:21:12
阅读次数:
189
Requests: 让 HTTP 服务人类 虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py ...
分类:
其他好文 时间:
2018-10-13 10:55:06
阅读次数:
178
通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 ...
分类:
其他好文 时间:
2018-10-13 10:23:53
阅读次数:
229
工作这么久以来。遇到过了好几个爬虫项目,抓过NASA的卫星数据,抓取头条的新闻数据,最近抓了一个母婴网站的产品数据,马上接下来的任务,就是抓取电商网站的数码产品。 现在针对做过的项目,对自己在工作中遇到的问题,做一个梳理,记录一下自己的想法。 1,现在网上的爬虫教程很多都是教你怎么去爬取某个页面,某 ...
分类:
其他好文 时间:
2018-09-15 01:19:26
阅读次数:
255
之前介绍的Requests库是一个阻塞式HTTP请求库,当我们发出一个请求后,程序会一直等待服务器响应,直到得到响应后,程序才会进行下一步处理。其实,这个过程比较耗费资源。如果程序可以在这个等待过程中做一些其他的事情,如进行请求的调度、响应的处理等,那么爬取效率一定会大大提高。 aiohttp就是这 ...
分类:
编程语言 时间:
2018-09-11 16:23:15
阅读次数:
159
新建单元测试解决方案 安装Nuget包 我这里使用谷歌浏览器采集数据,所以就使用谷歌浏览器的驱动了,如果不喜欢谷歌浏览器的可以引用别的驱动程序包 命令 或者直接管理器安装 如下图 Selenium.WebDriver.ChromeDriver是在项目编译后将Chorme的驱动程序即ChormeDri ...
上一回尝试抓取了百度热点数据,这次继续选择利用bing搜索抓取图片练习下,代码放在最下供大家参考。程序需要传入三个参数,图片关键词、图片保存路径、需要抓取的数量。运行过程中可能会有一些错误(大部分的是网络错误,比如超时等)我这里捕获到只打印出来然后跳过。代码中翻页的url请求是抓包获取到的(没有写全 ...
分类:
编程语言 时间:
2018-07-05 23:14:39
阅读次数:
243
最近学习python网络爬虫,所以自己写了一个简单的程序练练手(呵呵。。)。我使用的环境是python3.6和mysql8.0,抓取目标网站为百度热点(http://top.baidu.com/)。我只抓取了实时热点内容,其他栏目应该类似。代码中有两个变量SECONDS_PER_CRAWL和CRAW ...
分类:
数据库 时间:
2018-06-27 00:19:16
阅读次数:
214