码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
中文分词中的战斗机
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。大jieba确实是中文分词中的战斗机。 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 分词 3种 ...
分类:其他好文   时间:2017-06-13 21:45:19    阅读次数:218
python生成词云
期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba ...
分类:编程语言   时间:2017-06-13 00:02:25    阅读次数:293
python爬虫:抓取新浪新闻内容(从当前时间到之前某个时间段),并用jieba分词,用于训练自己的分词模型
新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: ...
分类:编程语言   时间:2017-06-11 14:56:55    阅读次数:1182
基于TF-IDF的新闻标签提取
基于TF-IDF的新闻标签提取 1. 新闻标签 新闻标签是一条新闻的关键字,可以由编辑上传,或者通过机器提取。新闻标签的提取主要用于推荐系统中,所以,提取的准确性影响推荐系统的有效性。同时,对于将标签展示出来的新闻网站,标签的准确性也会影响用户体验。 2. 新闻标签提取算法 新闻首先是一段文本,新闻 ...
分类:其他好文   时间:2017-06-07 18:52:23    阅读次数:178
Python爬知乎妹子都爱取啥名
闲来无事上知乎,看到好多妹子,于是抓取一波。 有没有兴趣?? 目标网址https://www.zhihu.com/collection/78172986 抓取分析 爬取分析 使用pandas操作文件 那么,下一步就是对名字进行分词了,jieba分词,你值得拥有。fxsjy/jieba 下一步就是分词 ...
分类:编程语言   时间:2017-06-05 00:41:51    阅读次数:487
jieba分词工具的使用
烦烦烦( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬运工。。。。。 jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"。 Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成 ...
分类:其他好文   时间:2017-06-04 13:43:06    阅读次数:286
python机器学习——分词
使用jieba库进行分词 安装jieba就不说了,自行百度! 将标题分词,并转为list 所有标题使用空格连接,方便后面做自然语言处理 将分词后的标题(使用空格分割的标题)放到一个list里面 统计词频 ...
分类:编程语言   时间:2017-06-02 18:57:59    阅读次数:256
python3.6下安装结巴分词需要注意的地方
近期,在安装结巴分词的时候遇到一些问题,纠结了好一阵,跟大家分享下,希望能有所帮助。先说下安装环境: windows7, 64位系统 python3.6,python3.5在结巴分词的官方github上,描述了关于结巴分词(jieba)的安装步骤 全自动安装:easy_install jieba 或 ...
分类:编程语言   时间:2017-05-17 00:44:47    阅读次数:4578
462条   上一页 1 ... 39 40 41 42 43 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!