http://www.gowhich.com/blog/147 jieba自带词典:dict.txt 一个词占一行;每一行分三部分,一部分为词语,另一部分为词频,最后为词性(可省略),用空格隔开 例如:词 频率 词性 一不注意 3 i一不留神 3 i一专多能 27 l一世 770 t一世之雄 2 i ...
分类:
其他好文 时间:
2016-11-19 02:05:35
阅读次数:
148
首先是爬取了我们学校贴吧的贴吧数据,每个帖子都有是否是精品贴的标签。 根据帖子标题信息,实现了贴吧精品贴和普通贴的分类。错误率在10%左右。 切词用的是jieba吧,没有过滤点停用词和标点符号,因为标点符号其实也是可以算是区分帖子是否是精品贴的而一个重要特征;其实还可以增加几个特征,比如第一页是否含 ...
分类:
其他好文 时间:
2016-11-04 01:10:12
阅读次数:
299
功能 1):分词 jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式 jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 注意:待分词的字符串可以是g ...
分类:
其他好文 时间:
2016-10-18 18:40:07
阅读次数:
169
jieba是一个开源的中文分词库,这几天看了下源码,就做下记录。
下载jieba后,tree得到主要部分的目录树结构如下:
├── jieba
│ ├── analyse
│ ...
分类:
其他好文 时间:
2016-09-14 12:58:01
阅读次数:
1607
jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码 a和副词代码d并在一起。 a ...
分类:
其他好文 时间:
2016-07-15 17:04:27
阅读次数:
230
BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:
其他好文 时间:
2016-06-23 12:38:16
阅读次数:
160
转自:http://www.gowhich.com/blog/147?utm_source=tuicool&utm_medium=referral 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ ...
分类:
其他好文 时间:
2016-06-05 21:39:04
阅读次数:
183
中文分词工具:结巴分词
github地址:https://github.com/fxsjy/jieba一、分词功能
精确模式(默认):试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:
编程语言 时间:
2016-05-22 12:32:43
阅读次数:
268
源码下载的地址:https://github.com/fxsjy/jieba
演示地址:http://jiebademo.ap01.aws.af.cm/
特点
1,支持三种分词模式:
a,精确模式,试图将句子最精确地切开,适合文本分析;
b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
c,搜索引擎模式,在...
分类:
其他好文 时间:
2016-05-06 12:56:47
阅读次数:
204