码迷,mamicode.com
首页 >  
搜索关键字:jieba分词    ( 108个结果
python jieba分词工具
源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但 ...
分类:编程语言   时间:2017-06-18 23:34:01    阅读次数:327
fastext 中文文本分类
1. 输入文本预处理, 通过jieba分词, 空格" "拼接文本串. 每行一个样本, 最后一个单词为双下划线表明label, __label__'xxx' . eg: 2. pip install fasttext, 利用fasttext 的python 包进行分类. 简单高效, 结果也不差. go ...
分类:其他好文   时间:2017-06-17 20:44:27    阅读次数:430
中文分词中的战斗机
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。大jieba确实是中文分词中的战斗机。 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 分词 3种 ...
分类:其他好文   时间:2017-06-13 21:45:19    阅读次数:218
python爬虫:抓取新浪新闻内容(从当前时间到之前某个时间段),并用jieba分词,用于训练自己的分词模型
新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: ...
分类:编程语言   时间:2017-06-11 14:56:55    阅读次数:1182
Python爬知乎妹子都爱取啥名
闲来无事上知乎,看到好多妹子,于是抓取一波。 有没有兴趣?? 目标网址https://www.zhihu.com/collection/78172986 抓取分析 爬取分析 使用pandas操作文件 那么,下一步就是对名字进行分词了,jieba分词,你值得拥有。fxsjy/jieba 下一步就是分词 ...
分类:编程语言   时间:2017-06-05 00:41:51    阅读次数:487
jieba分词工具的使用
烦烦烦( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬运工。。。。。 jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"。 Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成 ...
分类:其他好文   时间:2017-06-04 13:43:06    阅读次数:286
文本挖掘——jieba分词
python 结巴分词(jieba)学习 特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 ...
分类:其他好文   时间:2017-03-19 14:19:45    阅读次数:224
每日技术 | 毕设
python结巴分词 用jieba分词不仅可以做最基础的分词,还可以添加自定义词典和用来做词性标注! 详细用法:http://www.tuicool.com/articles/QV36ru ...
分类:其他好文   时间:2017-03-11 13:58:39    阅读次数:172
初窥wordcloud之老司机带你定制词云图片
抓紧上车啦 来看看依照原图来的模板 根据这个模板的到黑色的词云 是不是很炫酷。 因为python2.7的蛋疼的中文编码问题。如果是中文文档的话,可以用jieba分词对文件进行次频处理在生成词云。 挖个坑,以后填。。 ...
分类:其他好文   时间:2017-03-08 18:44:54    阅读次数:2856
Python自然语言处理学习——jieba分词
jieba——“结巴”中文分词是sunjunyi开发的一款Python中文分词组件,可以在Github上查看jieba项目。 要使用jieba中文分词,首先需要安装jieba中文分词,作者给出了如下的安装方法: 1.全自动安装:easy_install jieba 或者 pip install ji ...
分类:编程语言   时间:2017-01-19 04:10:29    阅读次数:349
108条   上一页 1 ... 8 9 10 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!