文本分析: re&jieba模块 使用 正则表达式 和 中文处理模块jieba 原文地址:https://www.cnblogs.com/minutesheep/p/10357209.html ...
分类:
编程语言 时间:
2019-02-09 18:02:54
阅读次数:
204
本片博文主要记录Python中正则表达式re模块和中文分词模块jieba ...
分类:
其他好文 时间:
2019-02-09 17:58:35
阅读次数:
161
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:
其他好文 时间:
2019-02-09 00:48:55
阅读次数:
141
1. wordcloud概述 wordcloud是优秀的词云展示第三方 词云以词语为基本单位,更加直观和艺术地展示文本 2.安装wordcloud 在编写程序之前需要下载第三方库: jieba wordcloud scipy python3.0是: python2.7是: 3.wordcloud库的 ...
分类:
其他好文 时间:
2019-01-27 21:56:04
阅读次数:
782
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:
编程语言 时间:
2019-01-26 17:57:30
阅读次数:
166
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac ...
分类:
其他好文 时间:
2019-01-19 00:45:32
阅读次数:
3414
新人一枚,初来乍到,请多关照 来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了。 使用python 爬取博客园首页文章链接和标题。 首先当然是环境了,爬虫在window10系统下,python3.6.5环境中运行。使用python中的requests模块和BeautifulSoup模块。 通 ...
分类:
编程语言 时间:
2019-01-15 14:10:56
阅读次数:
219
环境及模块: Win7 64位 Python 3.6.4 WordCloud 1.5.0 Pillow 5.0.0 Jieba 0.39 目标: 绘制安徽省2018年某些科技项目的词云,直观展示热点。 思路: 先提取项目的名称,再用Jieba分词后提取词汇;过滤掉“研发”、“系列”等无意义的词;最后 ...
分类:
编程语言 时间:
2019-01-08 15:32:26
阅读次数:
254
2018年是改革开放四十周年,也是互联网发展的重要一年。经历了区块链,人工智能潮的互联网行业逐渐迎来了冬天。这一年里有无数的事件发生着,正好学了python, 就用python对18年的互联网事件进行一个简单的记录与分析。主要用了wordcloud和jieba 首先来看一个数据表,这个几乎就是201 ...
分类:
编程语言 时间:
2019-01-02 15:48:32
阅读次数:
278
汉语分词中的基本问题:分词规范,歧义的切分和未登录词的识别 分词规范:(一般也就是指“词”的概念的纠缠不清的问题,),一方面来源于 单字词和词素之间的划界,另一方面就是词和短语(词组)的划界问题 歧义切分问题: 交集型切分歧义:汉字串AJB 其中 AJ,JB同时为词,此时的J 称作交集串 例如:结合 ...
分类:
其他好文 时间:
2019-01-01 15:26:12
阅读次数:
236