快速使用 from bs4 import BeautifulSoup soup = BeautifulSoup(html,'lxml') 一、基本使用 1、标签选择器 soup.标签名 获取这个标签内容,如果有多个该标签,就返回第一个 获取名称 soup.title.name 获取属性 soup.p ...
分类:
编程语言 时间:
2020-05-05 12:28:47
阅读次数:
73
import requestsfrom bs4 import BeautifulSoupurl='https://www.manhuatai.com/yashe/?_t_t_t=0.09846753146736842'r=requests.get(url)r.raise_for_status()r. ...
分类:
其他好文 时间:
2020-05-04 00:54:05
阅读次数:
52
一、目的 : 爬取晋江文学网总分榜 二、python爬取数据 网址:http://www.jjwxc.net/topten.php?orderstr=7&t=0 三、爬取 在开始多出现了38号而且顺序内容不准确 代码: import requests from bs4 import Beautifu ...
分类:
其他好文 时间:
2020-05-04 00:20:43
阅读次数:
215
前言 曾经年少无知,笑对python爬虫。 如今首战未捷,却已头顶清凉... 奈何心中执着,不愿面对结果。 若有江湖侠客,还望拔刀相助! 思路 网站选取的是爱奇艺的电影排行 requests和bs4库的安装也较为轻松 爬取的过程比较顺利,问题出现在对信息的处理上 处理过程:1.简单了解函数find_ ...
分类:
其他好文 时间:
2020-05-03 12:42:06
阅读次数:
101
1.主题:百度新闻爬取 2. python代码: import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status( ...
分类:
其他好文 时间:
2020-05-03 10:59:32
阅读次数:
207
数据采集利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv这样的表格格式。数据采集:urllib,requests数据解析:Xpath,BS4,正则表达式数据持久化存储:pd.to_csv,pd.to_excel,MySQL,Redis数据预处理一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。数据预处理占到数据挖掘工作的60%,这是最重
分类:
编程语言 时间:
2020-05-03 00:58:59
阅读次数:
67
1.首先先安装了request库和bs4库,然后正好最近在网上看到了一篇自己比较感兴趣的文章,就决定爬它了。 2.博文主页: https://zhidao.baidu.com/daily/view?id=203615 3.代码: import requestsfrom bs4 import Beau ...
分类:
其他好文 时间:
2020-05-02 16:36:28
阅读次数:
50
代码: import pandas as pdimport requests as rqfrom bs4 import BeautifulSoupurl="http://tieba.baidu.com/hottopic/browse/topicList?res_type=1"def res_capu ...
分类:
其他好文 时间:
2020-05-01 14:33:48
阅读次数:
236
import re import requests from urllib import error from bs4 import BeautifulSoup import os num = 0 numPicture = 0 file = '' List = [] def Find(url): g ...
分类:
编程语言 时间:
2020-04-29 10:25:30
阅读次数:
91
模块: requests:伪造浏览器发起Http请求 bs4:将html格式的字符串解析成对象, 对象.find / find_all 示例1:爬取汽车之家新闻 (什么都不需要) import requests from bs4 import BeautifulSoup response = req ...
分类:
其他好文 时间:
2020-04-27 17:50:56
阅读次数:
82