分词、词性标注和关键词提取是jieba中文分词的三个主要功能,jieba.NET实现了与jieba一致的功能和接口。jieba.NET的开发刚刚开始,还有很多细节需要完善。非常欢迎大家的试用和反馈,也希望能和大家一起讨论,共同实现更好的中文分词库。
分类:
Web程序 时间:
2015-09-08 21:57:40
阅读次数:
277
一、结巴中文分词采用的算法
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、结巴中文分词支持的分词模式
目前结巴分词支持三种分词模式:
精确模式,试图将句子最精确地切开,适...
分类:
编程语言 时间:
2015-08-29 18:50:49
阅读次数:
483
结巴”分词:做最好的Python分词组件出处:http://www.iteye.com/news/26184-jiebaimport jiebaseg_list = jieba.cut("我来到北京清华大学",cut_all=True)print "Full Mode:", "/ ".join(se...
分类:
编程语言 时间:
2015-07-16 19:11:08
阅读次数:
134
jieba中文分词的使用
import jieba
sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service']
# jieba.suggest_freq('雾霾', True)
# jieba.suggest_freq('百搭', True)
words = [list(jieba.cut(doc)) for...
分类:
编程语言 时间:
2015-04-27 16:58:00
阅读次数:
301
Jieba分词包(三)——基于词频最大切分组合
在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)?
我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:...
分类:
其他好文 时间:
2014-12-10 18:14:46
阅读次数:
379
描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。
分类:
其他好文 时间:
2014-11-16 18:38:09
阅读次数:
1708
依赖包:1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...
分类:
数据库 时间:
2014-10-06 19:06:30
阅读次数:
266
1.背景 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:
编程语言 时间:
2014-09-25 10:43:58
阅读次数:
947
python 分词计算文档TF-IDF值并排序...
分类:
编程语言 时间:
2014-08-09 11:38:07
阅读次数:
617
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:
编程语言 时间:
2014-07-15 23:14:45
阅读次数:
679