首页 > 编程语言 > 详细

Python数据分析8-----网页文本处理

时间：2018-07-17 21:46:08 阅读：233 评论：0 收藏：0 [点我收藏+]

标签：nload split port 文本处理 python not for class bs4

1、去除网页的标签，如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,‘html.parser‘).get_text()

2、将标点符号等去掉，用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格
preData=re.sub(r‘[^a-zA-Z]‘,‘ ‘,data)

3、将文本中的单词小写化，并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence=‘ ‘.join(words)

Python数据分析8-----网页文本处理

标签：nload split port 文本处理 python not for class bs4

原文地址：https://www.cnblogs.com/Lee-yl/p/9325995.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！