from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:16:31
阅读次数:
324
from urllib import request from bs4 import BeautifulSoup as bs import re import codecs import jieba #分词包 import numpy #numpy计算包 import pandas as pd #分... ...
分类:
其他好文 时间:
2018-11-10 21:11:14
阅读次数:
174
一,自然语言处理 自然语言处理(NLP) :自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学 ...
分类:
编程语言 时间:
2018-10-27 00:26:33
阅读次数:
281
现如今,词云技术遍地都是,分词模块除了jieba也有很多,主要介绍一下jieba的基本使用 运行结果 其中精确模式比较好用,全模式就是尽量将所有的词拿出来 ...
分类:
编程语言 时间:
2018-10-13 10:24:40
阅读次数:
376
一开始是想用qq空间说说做词云的,然而qq空间需要用cookies以及其他加密的东西,退而求其次搞搞新闻吧。 直接上代码了 有时候我们在html源码里面难以获得我们想要的元素的id,class只有不特殊的tag时候怎么办?这时候就要用xpath方法来查找。 我很讨厌给你一堆定义,那就直接上例子: 我 ...
分类:
其他好文 时间:
2018-10-09 23:56:27
阅读次数:
181
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 –withWeight 为是否一并返回 ...
分类:
编程语言 时间:
2018-10-02 14:03:36
阅读次数:
256
Python:电商产品评论数据情感分析,jieba分词,LDA模型 ...
分类:
编程语言 时间:
2018-10-02 13:57:14
阅读次数:
529
1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da ...
分类:
编程语言 时间:
2018-10-02 00:20:54
阅读次数:
288
将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 ...
分类:
编程语言 时间:
2018-10-01 22:12:43
阅读次数:
239
前面的步骤都相似 #构建语料库 #使用jieba包进行分词,并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块,可以将停用词以参数的形式传入CountVectorizer模块 得到numpy类的数据结构,需要进行转换 #将得到的TF-IDF结构转换成数组的形式,并 ...
分类:
其他好文 时间:
2018-09-26 01:15:20
阅读次数:
227