一、目标网页及要求 目标网页: https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 要求: 爬取页面中的详情页文章标题、内容、发布时间、文章来源,存入本地mongodb ...
分类:
Web程序 时间:
2021-06-02 15:57:17
阅读次数:
0
往常使用options.Find().SetSort(bson.D{{"a", -1},{"b", -1}})结果报错,感觉使用方法没问题,排查之后发现是import的包错了导致。 cannot transform type bson.D to a BSON Document: WriteArray ...
分类:
数据库 时间:
2021-05-25 18:10:59
阅读次数:
0
一、介绍 1、基本介绍 MongoDB部署架构分为单机、复制集群、分片集群。单机适合学习用,分片集群比较复杂且运维难度高。 分片集群是把大型数据集进行拆分,分片到多个MongoDB节点上,这些节点组成了分片集群。分片结构如下: 2、词汇表 Shard:分片,存储集群中的一部分数据。可以是单个mong ...
分类:
数据库 时间:
2021-05-25 17:49:26
阅读次数:
0
在爬取某网站时,我们习惯于直接在浏览器里复制headers和请求参数,粘贴到自己的代码里进行调试
但是,在爬取linkg网站时,发现了一个问题:
解码失败
运行: ...
分类:
编程语言 时间:
2021-05-24 17:15:57
阅读次数:
0
聚合管道操作 聚合管道操作主要包含下面几个部分: 命令 功能描述 $project 指定输出文档里的字段. $match 选择要处理的文档,与fine()类似。 $limit 限制传递给下一步的文档数量。 $skip 跳过一定数量的文档。 $unwind 扩展数组,为每个数组入口生成一个输出文档。 ...
分类:
数据库 时间:
2021-05-24 16:40:49
阅读次数:
0
在使用MongoDB存储数据的时候,我们查询的时候,有时候难免会需要进行连表查询。但是MongoDB本身是非关系性数据库,连表查询,很多时候,需要我们自己在代码里手工操作。但是从 MongoDB 3.2 版本过后,我们可以使用 $lookup 进行连表查询。下面就简单介绍一下 MongoDB 的 $ ...
分类:
数据库 时间:
2021-05-24 15:55:53
阅读次数:
0
还记得那些年一起网吧开黑通宵的日子吗?《英雄联盟》绝对是大学时期的风靡游戏,即使毕业多年的大学同学相聚,难免不怀念一番当时一起玩《英雄联盟》的日子。 今天就给大家分享一下英雄及皮肤图片的爬虫。 一开始都是先去《英雄联盟》官网找到英雄及皮肤图片的网址: URL = r'https://lol.qq.c ...
分类:
编程语言 时间:
2021-05-24 14:37:29
阅读次数:
0
1、下载mongo wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgz 3、移动。将解压完的m ...
分类:
数据库 时间:
2021-05-24 14:35:54
阅读次数:
0
由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以这次采用多线程进行爬取。具体代码和流程如下: import math import re from concurrent.futures import ThreadPoolExecutor import requests ...
分类:
编程语言 时间:
2021-05-24 12:04:44
阅读次数:
0
代码: 1 import time 2 import traceback 3 import requests 4 from lxml import etree 5 import re 6 from bs4 import BeautifulSoup 7 from lxml.html.diff impo ...
分类:
数据库 时间:
2021-05-24 12:00:17
阅读次数:
0