1爬虫介绍 # 1 本质:模拟发送http请求(requests) 》解析返回数据(re,bs4,lxml,json) 》入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界的 ...
分类:
Web程序 时间:
2020-04-10 00:48:11
阅读次数:
114
Mongodb正式业务,至少要使用复制集,不要单点,数据一定要有备份。
分类:
数据库 时间:
2020-04-09 16:51:23
阅读次数:
248
[TOC] 爬虫介绍 爬虫的本质就是模拟发送http请求(requests模块),之后解析返回的数据(re,bs4,lxml,json等模块),最后将数据入库(redis,mysql,mongodb)。 app的爬虫,本质上是一模一样的。 python做爬虫的优势在于:包多,而且有爬虫的框架scra ...
分类:
其他好文 时间:
2020-04-07 23:57:24
阅读次数:
160
使用Docker创建MongoDb服务 1、先拉mongodb镜像 2、创建映射目录 创建mongo映射目录,用于存放后面的相关东西。 3、创建容器 我这里创建了两个容器,其余都一样。只有 auth的区别。 auth是用来使mongodb服务需要验证的指令,如果不需要验证,则不加。默认mongodb ...
分类:
数据库 时间:
2020-04-07 22:40:06
阅读次数:
86
很多时候我们写了一个爬虫,实现了需求后会发现了很多值得改进的地方,其中很重要的一点就是爬取速度。本文 就通过代码讲解如何使用 多进程、多线程、协程 来提升爬取速度。注意:我们不深入介绍理论和原理,一切都在代码中。 二、同步 首先我们写一个简化的爬虫,对各个功能细分,有意识进行函数式编程。下面代码的目 ...
分类:
编程语言 时间:
2020-04-07 15:36:54
阅读次数:
98
应用场景: 01:去爬虫微信公众号文章,我们需要通过requests的session进行爬取,已知requests的执行方式实际就是执行里面的request方法, 我们进行重写request方法的init,加入我们需要的字段: 如callback --获取response执行回调函数 need_pr ...
分类:
编程语言 时间:
2020-04-07 11:08:36
阅读次数:
97
前言 文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。 作者:一棵程序树 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 我们以财经分栏为例,这里我们观察网页源码可以看到 ...
分类:
编程语言 时间:
2020-04-06 17:22:11
阅读次数:
208