英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。大jieba确实是中文分词中的战斗机。 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 分词 3种 ...
分类:
其他好文 时间:
2017-06-13 21:45:19
阅读次数:
218
期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。 今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。 所要用到的python库有 jieba ...
分类:
编程语言 时间:
2017-06-13 00:02:25
阅读次数:
293
新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: ...
分类:
编程语言 时间:
2017-06-11 14:56:55
阅读次数:
1182
基于TF-IDF的新闻标签提取 1. 新闻标签 新闻标签是一条新闻的关键字,可以由编辑上传,或者通过机器提取。新闻标签的提取主要用于推荐系统中,所以,提取的准确性影响推荐系统的有效性。同时,对于将标签展示出来的新闻网站,标签的准确性也会影响用户体验。 2. 新闻标签提取算法 新闻首先是一段文本,新闻 ...
分类:
其他好文 时间:
2017-06-07 18:52:23
阅读次数:
178
闲来无事上知乎,看到好多妹子,于是抓取一波。 有没有兴趣?? 目标网址https://www.zhihu.com/collection/78172986 抓取分析 爬取分析 使用pandas操作文件 那么,下一步就是对名字进行分词了,jieba分词,你值得拥有。fxsjy/jieba 下一步就是分词 ...
分类:
编程语言 时间:
2017-06-05 00:41:51
阅读次数:
487
烦烦烦( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬运工。。。。。 jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"。 Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成 ...
分类:
其他好文 时间:
2017-06-04 13:43:06
阅读次数:
286
使用jieba库进行分词 安装jieba就不说了,自行百度! 将标题分词,并转为list 所有标题使用空格连接,方便后面做自然语言处理 将分词后的标题(使用空格分割的标题)放到一个list里面 统计词频 ...
分类:
编程语言 时间:
2017-06-02 18:57:59
阅读次数:
256
近期,在安装结巴分词的时候遇到一些问题,纠结了好一阵,跟大家分享下,希望能有所帮助。先说下安装环境: windows7, 64位系统 python3.6,python3.5在结巴分词的官方github上,描述了关于结巴分词(jieba)的安装步骤 全自动安装:easy_install jieba 或 ...
分类:
编程语言 时间:
2017-05-17 00:44:47
阅读次数:
4578