码迷,mamicode.com
首页 > 编程语言 > 详细

Python数据分析8-----网页文本处理

时间:2018-07-17 21:46:08      阅读:233      评论:0      收藏:0      [点我收藏+]

标签:nload   split   port   文本处理   python   not   for   class   bs4   

1、去除网页的标签,如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,html.parser).get_text()

 

2、将标点符号等去掉,用正则表达式。

import re
#表示将data中的除了大小写字母之外的符号换成空格 preData
=re.sub(r[^a-zA-Z], ,data)

3、将文本中的单词小写化,并将data用空格分开

words=data.lower().split()

4、去掉停用词

#可以自己下载停用词
#nltk.download() 
words_notstop=[w for w in words if w not in stopwords]

5、将所有的词连接成一个句子

sentence= .join(words)

 

Python数据分析8-----网页文本处理

标签:nload   split   port   文本处理   python   not   for   class   bs4   

原文地址:https://www.cnblogs.com/Lee-yl/p/9325995.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!