前言 中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。这里针对 jieba 和 HanLP 分别介绍不同场景下的中文分词应用。 jieba 分词 jieba 安装 (1)P ...
分类:
其他好文 时间:
2019-12-02 16:51:41
阅读次数:
77
Python高级应用程序设计任务要求 用Python实现一个面向主题的网络爬虫程序,并完成以下内容:(注:每人一题,主题内容自选,所有设计内容与源代码需提交到博客园平台) 一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 名称:爬取视频网站中的电影排名信息2.主题式网络爬虫爬取的内容与数 ...
分类:
编程语言 时间:
2019-11-30 13:22:53
阅读次数:
90
jieba是优秀的中文分词第三方库 jieba有3种模式 1.精确模式,返回一个列表类型的分词结果 >>>jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] 2.全模式,返回一个列表类型的分词结果,存在冗余 >>>jieba.lcu ...
分类:
其他好文 时间:
2019-11-29 15:55:19
阅读次数:
166
1、jieba jieba分词库的使用 2、wordcloud wordcloud词云库的使用 wordcloud词云绘图 3、turtle 彩色蟒蛇绘制 七段数码管绘制 ...
分类:
其他好文 时间:
2019-11-23 12:48:01
阅读次数:
60
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73
阅读目录 回到顶部 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba ...
分类:
编程语言 时间:
2019-11-03 22:05:59
阅读次数:
183
jieba库是Python中对中文分词效果比较好的一个库,最近正好看到MOOC上嵩天老师的课程,因此也跟着学了下 首先肯定需要安装jieba ,这个很简单,win+r cmd下运行以下代码即可,但是由于PY第三方库很多是国外源提供,速度比较慢,因此可能会出现报错等情况 新手们可以和我一样使用这样的方 ...
分类:
编程语言 时间:
2019-11-03 16:40:55
阅读次数:
71
一.jieba模块基本介绍 jieba是优秀的第三方中文词库 中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程 二.jieba库的使用说明 精确模式:将句子最精确的分开,适合文本分析 ...
分类:
其他好文 时间:
2019-11-01 18:24:16
阅读次数:
385
安装:pip install jieba 导包:import jieba 精确模式:试图将句子最精确地切开,适合文本分析(很像人类一样去分词) jieba.cut(字符串) --> 返回生成器 jieba.lcut(字符串) --> 返回列表 全模式:把句子中所有的可以成词的词语都扫描出来,速度非常 ...
分类:
其他好文 时间:
2019-10-29 21:43:28
阅读次数:
112
需求:爬取哔哩哔哩网页弹幕内容,并将爬取的内容以五角星的形式显示出来 思路: 实现: 使用到的类库,如果没有,需要下载,下载命令: 知识点: request 向对方服务器发送请求 BeautifulSoup 解析爬取的弹幕内容 pandas 分析弹幕数据 jieba 中文分词器,或称为中文词组切片器 ...
分类:
Web程序 时间:
2019-10-28 20:51:02
阅读次数:
147