码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
jieba中文分词的.NET版本:jieba.NET
分词、词性标注和关键词提取是jieba中文分词的三个主要功能,jieba.NET实现了与jieba一致的功能和接口。jieba.NET的开发刚刚开始,还有很多细节需要完善。非常欢迎大家的试用和反馈,也希望能和大家一起讨论,共同实现更好的中文分词库。
分类:Web程序   时间:2015-09-08 21:57:40    阅读次数:277
Python分词模块推荐:jieba中文分词
一、结巴中文分词采用的算法 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法 二、结巴中文分词支持的分词模式 目前结巴分词支持三种分词模式: 精确模式,试图将句子最精确地切开,适...
分类:编程语言   时间:2015-08-29 18:50:49    阅读次数:483
结吧分词 python
结巴”分词:做最好的Python分词组件出处:http://www.iteye.com/news/26184-jiebaimport jiebaseg_list = jieba.cut("我来到北京清华大学",cut_all=True)print "Full Mode:", "/ ".join(se...
分类:编程语言   时间:2015-07-16 19:11:08    阅读次数:134
python下结巴中文分词
jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...
分类:编程语言   时间:2015-04-27 16:58:00    阅读次数:301
Jieba分词包(三)——基于词频最大切分组合
Jieba分词包(三)——基于词频最大切分组合 在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)? 我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:...
分类:其他好文   时间:2014-12-10 18:14:46    阅读次数:379
【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法
描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。
分类:其他好文   时间:2014-11-16 18:38:09    阅读次数:1708
python抓取伯乐在线的全部文章,对标题分词后存入mongodb中
依赖包:1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...
分类:数据库   时间:2014-10-06 19:06:30    阅读次数:266
新闻个性化推荐系统(python)-(附源码 数据集)
1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:编程语言   时间:2014-09-25 10:43:58    阅读次数:947
python 分词计算文档TF-IDF值并排序
python 分词计算文档TF-IDF值并排序...
分类:编程语言   时间:2014-08-09 11:38:07    阅读次数:617
Python 结巴分词
今天的任务是对txt文本进行分词,有幸了解到"结巴"中文分词,其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式: *精确模式,试图将句子最精确地切开,适合文本分析; *全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; *...
分类:编程语言   时间:2014-07-15 23:14:45    阅读次数:679
462条   上一页 1 ... 44 45 46 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!