人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:
编程语言 时间:
2019-12-27 09:23:31
阅读次数:
85
人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:
编程语言 时间:
2019-12-26 09:44:49
阅读次数:
102
CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而Cra ...
分类:
编程语言 时间:
2019-12-25 13:20:24
阅读次数:
95
豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 ...
分类:
数据库 时间:
2019-12-25 13:10:26
阅读次数:
83
设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有多个下载中间件被加载运行。 当引擎传递请求给下载器的过程中,下载中间件可以对请求进行处理 (例如增加 ...
分类:
编程语言 时间:
2019-12-25 13:09:56
阅读次数:
88
多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程 ...
分类:
编程语言 时间:
2019-12-25 11:34:37
阅读次数:
83
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现 ...
分类:
编程语言 时间:
2019-12-25 11:34:21
阅读次数:
87
很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力; 还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码; …… 难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗? 不不不,我们还有Python的第三方库—— 。 urll ...
分类:
编程语言 时间:
2019-12-25 10:20:02
阅读次数:
112
如果一个网站采用前端渲染,那么这个网站的前端会访问后端的一些接口,然后拿到后端向前端返回的数据(一般都是Json类型,Json对象的本质其实是一个bytes字节流,但我们可以通过转码的方式,把它转成str),再把Json数据交给JS,JS对其进行解析,最终渲染页面。 这就是前端渲染的一个流程。 很多 ...
分类:
编程语言 时间:
2019-12-25 10:18:39
阅读次数:
145
关注:程序运行速度 >主要是由cpu(大脑)来决定。 想要提高程序的运行速度 >提高cpu利用率。 提高cpu的利用率由两种途径: 1、让cpu不休息。cup每时每刻都在处理任务,这个任务可以理解为线程。这种情况就叫做多线程。 2、cpu都是分核。每个核就是一个小脑袋。可以理解一心多用。让每个核都作 ...
分类:
编程语言 时间:
2019-12-24 10:13:01
阅读次数:
86