码迷,mamicode.com
首页 >  
搜索关键字:jieba分词    ( 108个结果
jieba分词源码阅读
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。 下载jieba后,tree得到主要部分的目录树结构如下: ├── jieba │   ├── analyse │ ...
分类:其他好文   时间:2016-09-14 12:58:01    阅读次数:1607
中文信息处理&机器学习-Kmeans实践
BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:其他好文   时间:2016-06-23 12:38:16    阅读次数:160
[python] 使用Jieba工具中文分词及文本聚类概念
这篇文章主要是爬取百度5A景区摘要信息,再利用Jieba分词工具进行中文分词,最后提出文本聚类算法的一些概念知识。一. Selenium爬取百度百科摘要 二. Jieba中文分词 1.安装及入门介绍 2.添加自定义词典 3.关键词提取 4.对百度百科获取摘要分词 5.去除停用词 三. 基于VSM的文...
分类:编程语言   时间:2015-12-18 06:49:30    阅读次数:8948
提取频率较高的关键词
通过jieba分词,提取频率较高的关键词。 import?jieba.analyse strx?=?‘网络让我们之间的距离变的如此之近,也同时让我们变的如此遥远。世界上最远的距离不是南极到北极,也不是喜马拉雅之巅到马里亚纳之渊;而...
分类:其他好文   时间:2015-11-09 19:26:26    阅读次数:190
Jieba分词包(三)——基于词频最大切分组合
Jieba分词包(三)——基于词频最大切分组合 在前面,我们已经知道dict中所有的单词和词频信息已经存在了一个trie树中,并且需要分词的句子已经构建成了一个DAG图,构建的过程也运用了dict。那么这次我们来说如何基于每句话的DAG图,找到一个组合路径,使得该组合最合理(即打分最高)? 我们直接针对Jieba分词的源代码来解释,其中已经有了很多注释:...
分类:其他好文   时间:2014-12-10 18:14:46    阅读次数:379
【原】关于使用jieba分词+PyInstaller进行打包时出现的一些问题的解决方法
描述了使用pyInstaller打包使用jieba分词的文件时出现的一种错误,分析了导致该错误的原因,最后给出了解决方案。
分类:其他好文   时间:2014-11-16 18:38:09    阅读次数:1708
新闻个性化推荐系统(python)-(附源码 数据集)
1.背景       最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。2.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日...
分类:编程语言   时间:2014-09-25 10:43:58    阅读次数:947
python scikit-learn计算tf-idf词语权重
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词,安装jieba分词包 sudo pip install jieba 3  关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:编程语言   时间:2014-06-16 14:40:05    阅读次数:437
108条   上一页 1 ... 9 10 11
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!