题目: 下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) ...
分类:
其他好文 时间:
2018-03-28 01:40:05
阅读次数:
209
#coding=utf--8 import jieba exclude={',','、','。','\u3000','\n','"',"《",'》','?'} txt=open('doupo.txt','r').read() wordList=list(jieba.cut(txt)) wordSet... ...
分类:
其他好文 时间:
2018-03-28 00:00:38
阅读次数:
198
下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 ...
分类:
其他好文 时间:
2018-03-27 22:26:40
阅读次数:
223
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:
其他好文 时间:
2018-03-27 21:57:22
阅读次数:
1318
恢复内容开始 案例1:对主席的新年致辞进行分词,绘制出词云 掌握jieba分词的用法 1.加载包 2.导入数据 3.清洗数据 4.移除感叹词 5.绘制词云 案例2:通过拉勾网的数据进行分析,找出数据分析师相关的城市,薪水,工作年限等信息 数据集下载:链接:https://pan.baidu.com/ ...
分类:
编程语言 时间:
2018-03-27 02:01:09
阅读次数:
957
#Py:数据挖掘之对微信朋友圈好友的性别、区域、昵称、签名信息进行情感分析——Jason niu import os import re import csv import time import json import jieba from jieba import analyse import ... ...
分类:
微信 时间:
2018-03-15 00:31:16
阅读次数:
268
始终觉得官方文档是最好的学习途径。嗯,我只是一个大自然的搬运工。 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使 ...
分类:
其他好文 时间:
2018-03-14 18:07:36
阅读次数:
193
1. 数据采集:Python爬取淘宝网商品数据 2. 对数据进行清洗和处理 3. 文本分析:jieba分词、wordcloud可视化 4. 数据柱形图可视化 barh 5. 数据直方图可视化 hist 6. 数据散点图可视化 scatter 7. 数据回归分析可视化 regplot ...
分类:
编程语言 时间:
2018-03-09 13:18:55
阅读次数:
290
最近用到分词考虑很久,选用了结巴分词,原因见博客 "Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考" 既然选好了,难就开始行动吧 。 查了.net core版的JIEba分词目前已经有人迁移了 1. "https://github.com ...
分类:
Web程序 时间:
2018-02-28 22:59:11
阅读次数:
969
支持三种分词模式: ? 精确模式,试图将句子最精确地切开,适合文本分析; ? 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; ? 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 http://www.cnblogs.com/to ...
分类:
其他好文 时间:
2018-02-26 13:28:43
阅读次数:
181