码迷,mamicode.com
首页 >  
搜索关键字:结巴    ( 91个结果
结巴分词
viterbi 算法 https://wulc.me/2017/03/02/%E7%BB%B4%E7%89%B9%E6%AF%94%E7%AE%97%E6%B3%95/ https://en.wikipedia.org/wiki/File:Viterbi_animated_demo.gif http ...
分类:其他好文   时间:2019-12-05 13:14:12    阅读次数:76
算法--随便写写
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:编程语言   时间:2019-11-18 15:38:18    阅读次数:73
结巴分词与词云,简单爬虫——10.28 (python)
bilibili弹幕词云 美国历史词云 结巴分词 import jieba txt=" **** " 精确模式: 全模式: 搜索模式: res = jieba.cut(txt) res =jieba.cut(txt ,cut_all=True) res=jieba.cut_for_search(tx ...
分类:编程语言   时间:2019-10-28 19:18:58    阅读次数:156
朴素贝叶斯应用-机器学习-新浪新闻分类器
朴素贝叶斯应用 机器学习 新浪新闻分类器 本文代码及数据均来自于https://cuijiahua.com/blog/2017/11/ml_5_bayes_2.html 这个例子比较有实践意义,不仅使用了jieba、sklearn,并且其中用到的思想也是很实用的。 jieba "结巴"中文分词:做最 ...
分类:其他好文   时间:2019-10-08 19:21:45    阅读次数:102
jieba:我虽然结巴,但是我会分词啊
介绍 分词 python 添加自定义词典 python 自定义的词典格式如下: 词语 词频(可省略) 词性(可省略) 至于词频和词性后面会说 自定义一个1.txt文件,里面包含内容如下 python 除此之外,还可以不用通过加载文件的方式来加载词典 python 关键词提取 jieba 提供了两种关 ...
分类:其他好文   时间:2019-08-22 17:20:49    阅读次数:106
全文检索框架
第一步:安装全文检索框架django-haystack pip3 install django-haystack 第二步:安装搜索引擎 pip3 install whoosh 第三步:在settings配置app 第7步: 第9步:配置URL 第10步 第11步,更改分词方式:改为结巴分词 ...
分类:其他好文   时间:2019-08-04 13:19:03    阅读次数:91
NLP(十三)中文分词工具的使用尝试
  本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。   首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分型模型 。在用户字典中添加以下5个词语: 经 少安 ...
分类:其他好文   时间:2019-08-03 17:33:11    阅读次数:141
jieba(结巴)常用方法
python jieba库的基本使用 第一步:先安装jieba库 输入命令:pip install jieba jieba库常用函数: jieba库分词的三种模式: 1、精准模式:把文本精准地分开,不存在冗余 2、全模式:把文中所有可能的词语都扫描出来,存在冗余 3、搜索引擎模式:在精准模式的基础上 ...
分类:其他好文   时间:2019-05-18 18:41:37    阅读次数:3408
python实现关键词提取
简单的关键词提取的代码 文章内容关键词的提取分为三大步: (1) 分词 (2) 去停用词 (3) 关键词提取 分词方法有很多,我这里就选择常用的结巴jieba分词;去停用词,我用了一个停用词表。具体代码如下: ...
分类:编程语言   时间:2019-02-17 20:50:29    阅读次数:239
exception2:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd7 in position 0: invalid continuation byte
起因:jieba.load_userdict('C:\\Users\\lim\\Desktop\\dict.txt') 异常描述: 由异常描述可知,结巴默认的是使用“utf-8”来打开文件,因此我们需要修改文件的编码 属于编码解码的问题,默认的会跟随系统使用GBK,需要修改成UTF-8 首先在文件的 ...
分类:其他好文   时间:2018-12-14 13:04:51    阅读次数:156
91条   上一页 1 2 3 4 ... 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!