特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。具体来说,分词过程不会借助于词频查找最大概率路径,亦不会使用HMM;搜索引擎模式,在精确模式的基础上,对长词再次..
分类:
Web程序 时间:
2017-05-15 22:45:12
阅读次数:
1008
python用来批量处理一些数据的第一步吧。 对于我这样的的萌新。这是第一步。 在控制台输出txt文档的内容,注意中文会在这里乱码。因为和脚本文件放在同一个地方,我就没写路径了。 还有一些别的操作。 这是文件open()函数的打开mode,在第二个参数中设置。特别需要注意一下。具体还有一些别的细节操 ...
分类:
编程语言 时间:
2017-05-14 23:37:38
阅读次数:
498
原文地址:运用python抓取博客园首页的所有数据,而且定时持续抓取新公布的内容存入mongodb中 依赖包: 1.jieba 2.pymongo 3.HTMLParser # -*- coding: utf-8 -*- """ @author: jiangfuqiang """ from HTML ...
分类:
数据库 时间:
2017-05-02 15:24:04
阅读次数:
470
1. 准备好文本数据 2. pip install jieba 3. pip install wordcloud 4. 下载字体例如Songti.ttc(mac系统下的称呼,并将字体放在项目文件夹下) 运行结果如下: 参考网址:http://blog.csdn.net/vivian_ll/artic ...
分类:
编程语言 时间:
2017-04-29 13:43:46
阅读次数:
395
我们都知道进行自然语言处理的第一步就是分词,下面使用jieba模块对最近比较热的电视剧《人民的名义》进行分词,并对它进行一些简单的文本分析。 一、jieba模块中常用的方法说明(github): 1.分词: jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是 ...
分类:
其他好文 时间:
2017-04-21 20:16:15
阅读次数:
347
文章来自于我的个人博客:python 分词计算文档TF-IDF值并排序 该程序实现的功能是:首先读取一些文档,然后通过jieba来分词,将分词存入文件,然后通过sklearn计算每一个分词文档中的tf-idf值,再将文档排序输入一个大文件里 依赖包: sklearn jieba 注:此程序參考了一位 ...
分类:
编程语言 时间:
2017-04-17 14:21:07
阅读次数:
388
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities 进行语料库建立,模型tfidf算法,稀疏矩阵相似度分析 代码 # -*- coding: utf-8 ...
分类:
编程语言 时间:
2017-03-29 21:02:54
阅读次数:
411
一,安装pip3: 二,安装jieba: 三,安装sklearn: 四,安装sklearn依赖(numpy,scipy): eg:国内安装时可能出现time-out错误—解决办法如下: 五,简单实现分词并计算TF-IDF值: 以上就是Python3.5 数据处理 –jieba + sklearn库安 ...
分类:
编程语言 时间:
2017-03-27 18:33:55
阅读次数:
292
一,安装pip3: 二,安装jieba: 三,安装sklearn: 四,安装sklearn依赖(numpy,scipy): eg:国内安装时可能出现time-out错误 解决办法如下: 五,简单实现分词并计算TF-IDF值: ...
分类:
编程语言 时间:
2017-03-23 23:26:09
阅读次数:
420
有哪些比较好的中文分词方案? - 知乎https://www.zhihu.com/question/19578687 fxsjy/jieba: 结巴中文分词https://github.com/fxsjy/jieba 关键功能与特性:1、中文分词,支持繁体和自定义词典,非win支持并行2、词性标注3 ...
分类:
其他好文 时间:
2017-03-21 12:20:28
阅读次数:
150