搜索关键字：jieba，搜索到462个结果！码迷,mamicode.com！

jieba中文分词的.NET版本：jieba.NET

分词、词性标注和关键词提取是jieba中文分词的三个主要功能，jieba.NET实现了与jieba一致的功能和接口。jieba.NET的开发刚刚开始，还有很多细节需要完善。非常欢迎大家的试用和反馈，也希望能和大家一起讨论，共同实现更好的中文分词库。

分类：Web程序时间：2015-09-08 21:57:40 阅读次数：277

Python分词模块推荐：jieba中文分词

一、结巴中文分词采用的算法基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法二、结巴中文分词支持的分词模式目前结巴分词支持三种分词模式：精确模式，试图将句子最精确地切开，适...

分类：编程语言时间：2015-08-29 18:50:49 阅读次数：483

结吧分词 python

结巴”分词：做最好的Python分词组件出处:http://www.iteye.com/news/26184-jiebaimport jiebaseg_list = jieba.cut("我来到北京清华大学",cut_all=True)print "Full Mode:", "/ ".join(se...

分类：编程语言时间：2015-07-16 19:11:08 阅读次数：134

python下结巴中文分词

jieba中文分词的使用 import jieba sentences = ["我喜欢吃土豆","土豆是个百搭的东西","我不喜欢今天雾霾的北京", 'costumer service'] # jieba.suggest_freq('雾霾', True) # jieba.suggest_freq('百搭', True) words = [list(jieba.cut(doc)) for...

分类：编程语言时间：2015-04-27 16:58:00 阅读次数：301

Jieba分词包（三）——基于词频最大切分组合

Jieba分词包（三）——基于词频最大切分组合在前面，我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中，并且需要分词的句子已经构建成了一个DAG图，构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图，找到一个组合路径，使得该组合最合理（即打分最高）？我们直接针对Jieba分词的源代码来解释，其中已经有了很多注释：...

分类：其他好文时间：2014-12-10 18:14:46 阅读次数：379

【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法

描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误，分析了导致该错误的原因，最后给出了解决方案。

分类：其他好文时间：2014-11-16 18:38:09 阅读次数：1708

python抓取伯乐在线的全部文章，对标题分词后存入mongodb中

依赖包：1.pymongo2.jieba# -*- coding: utf-8 -*-"""@author: jiangfuqiang"""from HTMLParser import HTMLParserimport urllib2import sysimport pymongoimport ti...

分类：数据库时间：2014-10-06 19:06:30 阅读次数：266

新闻个性化推荐系统(python)-（附源码数据集）

1.背景最近参加了一个评测，是关于新闻个性化推荐。说白了就是给你一个人的浏览记录，预测他下一次的浏览记录。花了一周时间写了一个集成系统，可以一键推荐新闻，但是准确率比较不理想，所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段，以tab隔开。分别是user编号，news编号，时间编号，新闻标题，对应当前月份的日...

分类：编程语言时间：2014-09-25 10:43:58 阅读次数：947

python 分词计算文档TF-IDF值并排序

python 分词计算文档TF-IDF值并排序...

分类：编程语言时间：2014-08-09 11:38:07 阅读次数：617

Python 结巴分词

今天的任务是对txt文本进行分词，有幸了解到"结巴"中文分词，其愿景是做最好的Python中文分词组件。有兴趣的朋友请点这里。jieba支持三种分词模式：＊精确模式，试图将句子最精确地切开，适合文本分析；＊全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；＊...

分类：编程语言时间：2014-07-15 23:14:45 阅读次数：679

共462条上一页 1 ... 44 45 46 47 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)