码迷,mamicode.com
首页 > 编程语言 > 详细

利用python爬取微博热搜

时间:2020-03-20 14:21:37      阅读:79      评论:0      收藏:0      [点我收藏+]

标签:dataframe   http   ret   下载   enc   方便   headers   for   soup   

1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box

2.打开开发者工具查找所要爬取的数据位置技术图片

 

3.进行爬取并数据可视化

import requests#引入requests库用于下载网页
from bs4 import BeautifulSoup#BeautifulSoup用于解析网页
import pandas as pd#引入pandas方便数据可视化
from pandas import DataFrame
url="https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box"#所要爬取的网页
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36‘}#
r=requests.get(url)#请求网站
r.encoding=‘utf-8‘#对页面内容重新编码
data=r.text
soup=BeautifulSoup(data,‘html.parser‘)#使用BeautifulSoup工具
print(soup.prettify())#显示网站结构
a=[]#创建一个空列表
index=[]
for i in soup.find_all(class_="td-01 ranktop"):#把排名添加进空列表
a.append(i.get_text().strip())
for k in soup.find_all(class_="td-01"):#把热度标题添加进空列表
index.append(k.get_text().strip())
data=[a,index]
print(data)
s=pd.DataFrame(data,index=["排名","热点标题\热度"])
print(s.T)#将所得数据进行可视化

技术图片

 

利用python爬取微博热搜

标签:dataframe   http   ret   下载   enc   方便   headers   for   soup   

原文地址:https://www.cnblogs.com/han935010/p/12531377.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!