标签:nload split port 文本处理 python not for class bs4
from bs4 import BeautifulrSoup preData=BeautifulSoup(data,‘html.parser‘).get_text()
import re
#表示将data中的除了大小写字母之外的符号换成空格 preData=re.sub(r‘[^a-zA-Z]‘,‘ ‘,data)
words=data.lower().split()
#可以自己下载停用词 #nltk.download() words_notstop=[w for w in words if w not in stopwords]
sentence=‘ ‘.join(words)
标签:nload split port 文本处理 python not for class bs4
原文地址:https://www.cnblogs.com/Lee-yl/p/9325995.html