码迷,mamicode.com
首页 >  
搜索关键字:python爬虫 mongodb ji    ( 12880个结果
如何爬取js动态生成的页面数据--案例
一、目标网页及要求 目标网页: https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 要求: 爬取页面中的详情页文章标题、内容、发布时间、文章来源,存入本地mongodb ...
分类:Web程序   时间:2021-06-02 15:57:17    阅读次数:0
mongodb sort
往常使用options.Find().SetSort(bson.D{{"a", -1},{"b", -1}})结果报错,感觉使用方法没问题,排查之后发现是import的包错了导致。 cannot transform type bson.D to a BSON Document: WriteArray ...
分类:数据库   时间:2021-05-25 18:10:59    阅读次数:0
Linux搭建MongoDB分片集群
一、介绍 1、基本介绍 MongoDB部署架构分为单机、复制集群、分片集群。单机适合学习用,分片集群比较复杂且运维难度高。 分片集群是把大型数据集进行拆分,分片到多个MongoDB节点上,这些节点组成了分片集群。分片结构如下: 2、词汇表 Shard:分片,存储集群中的一部分数据。可以是单个mong ...
分类:数据库   时间:2021-05-25 17:49:26    阅读次数:0
python爬虫 - 反爬之关于headers头的accept-encoding的问题
在爬取某网站时,我们习惯于直接在浏览器里复制headers和请求参数,粘贴到自己的代码里进行调试 但是,在爬取linkg网站时,发现了一个问题: 解码失败 运行: ...
分类:编程语言   时间:2021-05-24 17:15:57    阅读次数:0
MongoDB:lookup关联查询
聚合管道操作 聚合管道操作主要包含下面几个部分: 命令 功能描述 $project 指定输出文档里的字段. $match 选择要处理的文档,与fine()类似。 $limit 限制传递给下一步的文档数量。 $skip 跳过一定数量的文档。 $unwind 扩展数组,为每个数组入口生成一个输出文档。 ...
分类:数据库   时间:2021-05-24 16:40:49    阅读次数:0
MongoDB 聚合 -- 连表查询
在使用MongoDB存储数据的时候,我们查询的时候,有时候难免会需要进行连表查询。但是MongoDB本身是非关系性数据库,连表查询,很多时候,需要我们自己在代码里手工操作。但是从 MongoDB 3.2 版本过后,我们可以使用 $lookup 进行连表查询。下面就简单介绍一下 MongoDB 的 $ ...
分类:数据库   时间:2021-05-24 15:55:53    阅读次数:0
python爬虫——《英雄联盟》英雄及皮肤图片
还记得那些年一起网吧开黑通宵的日子吗?《英雄联盟》绝对是大学时期的风靡游戏,即使毕业多年的大学同学相聚,难免不怀念一番当时一起玩《英雄联盟》的日子。 今天就给大家分享一下英雄及皮肤图片的爬虫。 一开始都是先去《英雄联盟》官网找到英雄及皮肤图片的网址: URL = r'https://lol.qq.c ...
分类:编程语言   时间:2021-05-24 14:37:29    阅读次数:0
Linux下安装MongoDB
1、下载mongo wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgz 3、移动。将解压完的m ...
分类:数据库   时间:2021-05-24 14:35:54    阅读次数:0
python爬虫——《瓜子网》的广州二手车市场信息
由于多线程爬取数据比单线程的效率要高,尤其对于爬取数据量大的情况,效果更好,所以这次采用多线程进行爬取。具体代码和流程如下: import math import re from concurrent.futures import ThreadPoolExecutor import requests ...
分类:编程语言   时间:2021-05-24 12:04:44    阅读次数:0
Python爬虫爬取1905电影网视频电影并存储到mysql数据库
代码: 1 import time 2 import traceback 3 import requests 4 from lxml import etree 5 import re 6 from bs4 import BeautifulSoup 7 from lxml.html.diff impo ...
分类:数据库   时间:2021-05-24 12:00:17    阅读次数:0
12880条   上一页 1 2 3 4 5 6 ... 1288 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!