之前都是用计算所的分词工具进行分词,效果不错可是比較麻烦,近期開始用Python的“结巴”模块进行分词,感觉很方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。以下这个程序是对一个文本文件中的内容进行分词的程序:test.py#!/usr/bin/python#-*- encod...
分类:
编程语言 时间:
2015-01-01 15:56:18
阅读次数:
170
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:
编程语言 时间:
2014-12-22 11:24:00
阅读次数:
661
最近在项目中部署结巴分词的时候遇到了乱码情况,明明是中文,确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码,s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印,如果结果是true说明没编码。如果是false说明编码了,但是编的码不对print isinstance(s,unicode)如果没编码,加入编码...
分类:
编程语言 时间:
2014-12-09 15:48:34
阅读次数:
177
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代...
分类:
编程语言 时间:
2014-11-26 14:24:16
阅读次数:
329
目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:
编程语言 时间:
2014-10-17 23:14:23
阅读次数:
319
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F...
分类:
编程语言 时间:
2014-07-18 08:30:03
阅读次数:
620
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:
编程语言 时间:
2014-07-15 23:14:45
阅读次数:
679
很久不写东西了,回首这些年,从高中那会儿,写作文觉得好简单,找三个点,每个点再拓展下下,八百字很快就搞定了,现在不一样了,情绪略微激动都能让自己开始结巴,时间真是把好牛刀啊! 不过一样的是还是喜欢阅读,还是喜欢各种精美的文字,技术的亦或是实事短评,但是不再喜欢文绉绉的东西了,感觉自己受不了那种无聊....
分类:
其他好文 时间:
2014-06-28 15:00:38
阅读次数:
145
之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。
下面这个程序是对一个文本文件里的内容进行分词的程序:test.py
#!/usr/bin/python
#-*- encoding:utf-8 -*-
import jieba ...
分类:
编程语言 时间:
2014-06-18 06:00:59
阅读次数:
412