搜索关键字：结巴，搜索到91个结果！码迷,mamicode.com！

【Python】用Python的“结巴”模块进行分词

之前都是用计算所的分词工具进行分词，效果不错可是比較麻烦，近期開始用Python的“结巴”模块进行分词，感觉很方便。这里将我写的一些小程序分享给大家，希望对大家有所帮助。以下这个程序是对一个文本文件中的内容进行分词的程序：test.py#!/usr/bin/python#-*- encod...

分类：编程语言时间：2015-01-01 15:56:18 阅读次数：170

"结巴"中文分词的R语言版本：jiebaR

"结巴"中文分词的R语言版本，支持最大概率法（Maximum Probability），隐式马尔科夫模型（Hidden Markov Model），索引模型（QuerySegment），混合模型（MixSegment），共四种分词模式，同时有词性标注，关键词提...

分类：编程语言时间：2014-12-22 11:24:00 阅读次数：661

python 中文乱码问题解决方案

最近在项目中部署结巴分词的时候遇到了乱码情况，明明是中文，确显示不出来或者显示乱码。解决方案如下。利用isinstance 来判断是否已经编码，s是出问题的字符串。unicode是没编码isinstance(s, unicode): 用print 打印，如果结果是true说明没编码。如果是false说明编码了，但是编的码不对print isinstance(s,unicode)如果没编码，加入编码...

分类：编程语言时间：2014-12-09 15:48:34 阅读次数：177

【Java】Java中文分词器Ansj的使用

以前都是用C++对中文进行分词，也用过Python的“结巴”分词，最近用了一下Java的Ansj中文分词，感觉还不错。下面是用Ansj对中文进行分词的一个简单例子，希望能对大家有用。 1.下载Ansj的相关jar包要用Ansj进行中文分词，必须先下载Ansj的jar包，下载地址可以参考：https://github.com/NLPchina/ansj_seg 2.程序代...

分类：编程语言时间：2014-11-26 14:24:16 阅读次数：329

汉语分词软件的使用（python底下）

目前我常常使用的分词有结巴分词、NLPIR分词等等最近是在使用结巴分词，稍微做一下推荐，还是蛮好用的。一、结巴分词简介利用结巴分词进行中文分词，基本实现原理有三：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)采用了动态规划查找最大概率路径, 找出基于...

分类：编程语言时间：2014-10-17 23:14:23 阅读次数：319

nltk-比较中文文档相似度

nltk同时也能处理中文的场景，只要做如下改动：使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理，使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......

分类：其他好文时间：2014-09-17 10:30:22 阅读次数：275

Python TF-IDF计算100份文档关键词权重

上一篇博文中，我们使用结巴分词对文档进行分词处理，但分词所得结果并不是每个词语都是有意义的（即该词对文档的内容贡献少），那么如何来判断词语对文档的重要度呢，这里介绍一种方法：TF-IDF。一，TF-IDF介绍 TF-IDF（Term Frequency–Inverse Document F...

分类：编程语言时间：2014-07-18 08:30:03 阅读次数：620

Python 结巴分词

今天的任务是对txt文本进行分词，有幸了解到"结巴"中文分词，其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式：＊精确模式，试图将句子最精确地切开，适合文本分析；＊全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；＊...

分类：编程语言时间：2014-07-15 23:14:45 阅读次数：679

只是为了拾起一只笔，所以写了这些

很久不写东西了，回首这些年，从高中那会儿，写作文觉得好简单，找三个点，每个点再拓展下下，八百字很快就搞定了，现在不一样了，情绪略微激动都能让自己开始结巴，时间真是把好牛刀啊！不过一样的是还是喜欢阅读，还是喜欢各种精美的文字，技术的亦或是实事短评，但是不再喜欢文绉绉的东西了，感觉自己受不了那种无聊....

分类：其他好文时间：2014-06-28 15:00:38 阅读次数：145

【Python】用Python的“结巴”模块进行分词

之前都是用计算所的分词工具进行分词，效果不错但是比较麻烦，最近开始用Python的“结巴”模块进行分词，感觉非常方便。这里将我写的一些小程序分享给大家，希望对大家有所帮助。下面这个程序是对一个文本文件里的内容进行分词的程序：test.py #!/usr/bin/python #-*- encoding:utf-8 -*- import jieba ...

分类：编程语言时间：2014-06-18 06:00:59 阅读次数：412

共91条上一页 1 ... 7 8 9 10 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)