码迷,mamicode.com
首页 >  
搜索关键字:结巴    ( 91个结果
【Python】用Python的“结巴”模块进行分词
之前都是用计算所的分词工具进行分词,效果不错可是比較麻烦,近期開始用Python的“结巴”模块进行分词,感觉很方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。以下这个程序是对一个文本文件中的内容进行分词的程序:test.py#!/usr/bin/python#-*- encod...
分类:编程语言   时间:2015-01-01 15:56:18    阅读次数:170
"结巴"中文分词的R语言版本:jiebaR
"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提...
分类:编程语言   时间:2014-12-22 11:24:00    阅读次数:661
python 中文乱码问题解决方案
最近在项目中部署结巴分词的时候遇到了乱码情况,明明是中文,确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码,s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印,如果结果是true说明没编码。如果是false说明编码了,但是编的码不对print isinstance(s,unicode)如果没编码,加入编码...
分类:编程语言   时间:2014-12-09 15:48:34    阅读次数:177
【Java】Java中文分词器Ansj的使用
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。 下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。 1.下载Ansj的相关jar包 要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg 2.程序代...
分类:编程语言   时间:2014-11-26 14:24:16    阅读次数:329
汉语分词软件的使用 (python底下)
目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词,基本实现原理有三:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于...
分类:编程语言   时间:2014-10-17 23:14:23    阅读次数:319
nltk-比较中文文档相似度
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:其他好文   时间:2014-09-17 10:30:22    阅读次数:275
Python TF-IDF计算100份文档关键词权重
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F...
分类:编程语言   时间:2014-07-18 08:30:03    阅读次数:620
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:编程语言   时间:2014-07-15 23:14:45    阅读次数:679
只是为了拾起一只笔,所以写了这些
很久不写东西了,回首这些年,从高中那会儿,写作文觉得好简单,找三个点,每个点再拓展下下,八百字很快就搞定了,现在不一样了,情绪略微激动都能让自己开始结巴,时间真是把好牛刀啊! 不过一样的是还是喜欢阅读,还是喜欢各种精美的文字,技术的亦或是实事短评,但是不再喜欢文绉绉的东西了,感觉自己受不了那种无聊....
分类:其他好文   时间:2014-06-28 15:00:38    阅读次数:145
【Python】用Python的“结巴”模块进行分词
之前都是用计算所的分词工具进行分词,效果不错但是比较麻烦,最近开始用Python的“结巴”模块进行分词,感觉非常方便。这里将我写的一些小程序分享给大家,希望对大家有所帮助。 下面这个程序是对一个文本文件里的内容进行分词的程序:test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba ...
分类:编程语言   时间:2014-06-18 06:00:59    阅读次数:412
91条   上一页 1 ... 7 8 9 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!