豆瓣书籍数据采集

时间：2019-07-31 18:32:39 阅读：502 评论：0 收藏：0 [点我收藏+]

标签：html test event 配置 host col and tab 安装配置

1、将从豆瓣网页爬虫采集到的数据,连接mongo数据库，将数据导入至mongo中，代码如下：

#  访问网址
# 使用requests 去访问
import pandas as pd
import requests
import pymongo
import re


u = ‘https://book.douban.com/tag/哲学‘
r = requests.get(url=u)

# 解析网址
# 使用BeautifulSoup 解析网址
from bs4 import  BeautifulSoup
soup =BeautifulSoup(r.text,‘lxml‘)
urlist =[]
for i in range(7):
    urlist.append(‘https://book.douban.com/tag/哲学?start=‘ + str(20*i)+ ‘&type=T‘)
n=0
for u in urlist:
    r = requests.get(url=u)
    soup =BeautifulSoup(r.text,‘lxml‘)
    soup.find(‘div‘,id="content").h1.text
    lis = soup.find(‘ul‘,class_=‘subject-list‘).find_all(‘li‘)
    for li in lis:
        dic = {}      # 创建空字典，存储数据
        dic[‘书名‘]=li.h2.text.replace(‘ ‘,‘‘).replace(‘\n‘,‘‘)
        dic[‘其他信息‘]=li.find(‘div‘,class_="pub").text.replace(‘ ‘,‘‘).replace(‘\n‘,‘‘)
        dic[‘评分‘]=li.find(‘span‘,class_="rating_nums").text
        dic[‘评价人数‘]=re.search(r‘(\d*)人‘,li.find(‘span‘,class_="pl").text.replace(‘ ‘,‘‘).replace(‘\n‘,‘‘)).group(1)
        datatable.insert_one(dic)     #  将每次获取的数据入库
        n +=1
        print("成功采集%i条数据"%n)

myclient = pymongo.MongoClient("mongodb://localhost:27017")
db = myclient[‘豆瓣数据采集‘]
datatable = db[‘test‘]
    # 创建了一个连接mongo数据库连接，并创建了一个豆瓣数据采集数据库，以及test表格

豆瓣数据爬虫

2、mongo的安装配置：https://www.cnblogs.com/zhoulifeng/p/9429597.html#4242074

3、ROBO 3T 安装：https://www.cnblogs.com/tugenhua0707/p/9250673.html

豆瓣书籍数据采集

标签：html test event 配置 host col and tab 安装配置

原文地址：https://www.cnblogs.com/wangchenghua/p/11278008.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行