MongoDB中存储的文档必须有一个"_id" 。这个键值可以是任何类型,默认是ObjectID对象。在一个集合里,每个文档都有一个唯一的“_id”,确保集合里的每个文档都能被唯一标示。 ObjectID使用12字节的存储空间,是一个由24个16进制数字组成的字符串。 ObjectId的12个字节按 ...
分类:
数据库 时间:
2019-12-25 20:12:25
阅读次数:
194
2.删除数据库:db.dropDatabase(); ...
分类:
数据库 时间:
2019-12-25 15:56:49
阅读次数:
57
CrawlSpider类 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com CrawSpider是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而Cra ...
分类:
编程语言 时间:
2019-12-25 13:20:24
阅读次数:
95
豆瓣电影TOP 250爬取-->>>数据保存到MongoDB 豆瓣电影TOP 250网址 要求: 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 ...
分类:
数据库 时间:
2019-12-25 13:10:26
阅读次数:
83
设置下载中间件(Downloader Middlewares) 下载中间件是处于引擎(crawler.engine)和下载器(crawler.engine.download())之间的一层组件,可以有多个下载中间件被加载运行。 当引擎传递请求给下载器的过程中,下载中间件可以对请求进行处理 (例如增加 ...
分类:
编程语言 时间:
2019-12-25 13:09:56
阅读次数:
88
多线程爬虫 先回顾前面学过的一些知识 1.一个cpu一次只能执行一个任务,多个cpu同时可以执行多个任务2.一个cpu一次只能执行一个进程,其它进程处于非运行状态3.进程里包含的执行单元叫线程,一个进程可以包含多个线程4.一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间5.一个线程 ...
分类:
编程语言 时间:
2019-12-25 11:34:37
阅读次数:
83
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现 ...
分类:
编程语言 时间:
2019-12-25 11:34:21
阅读次数:
87
很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力; 还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码; …… 难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗? 不不不,我们还有Python的第三方库—— 。 urll ...
分类:
编程语言 时间:
2019-12-25 10:20:02
阅读次数:
112
如果一个网站采用前端渲染,那么这个网站的前端会访问后端的一些接口,然后拿到后端向前端返回的数据(一般都是Json类型,Json对象的本质其实是一个bytes字节流,但我们可以通过转码的方式,把它转成str),再把Json数据交给JS,JS对其进行解析,最终渲染页面。 这就是前端渲染的一个流程。 很多 ...
分类:
编程语言 时间:
2019-12-25 10:18:39
阅读次数:
145
内容要点:MongoDB介绍linux系统安装MongoDBMongoDB基础操作一、MongoDB:(1)MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。(2)MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此
分类:
数据库 时间:
2019-12-25 09:12:30
阅读次数:
80