1 中文自然语言预处理 实验数据预处理(本文采用python版结巴分词) 1.对于爬取的评论做分词和词性标注处理(mac-result.txt) 2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt) 3.对词性进行选择,自定义保留词性,如下例子: 保留:名词,名词 ...
分类:
编程语言 时间:
2017-10-16 12:15:18
阅读次数:
278
具体实现如下,使用python+结巴分词+scikit-learn实现一个简单的文本聚类得到会议室数据,直接从DBA线上数据库得到预约数据,如下所示,共有3列,分别是会议ID,会议标题和会议时间 停用词文件stopwords.txt ...
分类:
编程语言 时间:
2017-09-15 13:57:04
阅读次数:
1778
效果图 大体步骤 1 接收请求中的文本,通过结巴分词处理文本。 2 生成图片并返回 Python的web架构用的是Django url配置: 入口代码: demo ...
分类:
编程语言 时间:
2017-09-03 10:06:18
阅读次数:
1571
结巴(jieba)是国人开发的一款插件,可以对中文进行分词,根据分词粒度的粗细,可以获取一些意想不到的信息 开源地址:http://www.oschina.net/p/jieba/ 下面实例分析,从歌词文本获取歌手的高频词汇,侧面了解歌手表达的主题 输出: 源码分析: 1.os.listdir(r' ...
分类:
其他好文 时间:
2017-07-03 17:23:08
阅读次数:
315
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。 除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的 ...
分类:
编程语言 时间:
2017-07-02 18:30:01
阅读次数:
457
python结巴(jieba)分词 一、特点 1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 ...
分类:
编程语言 时间:
2017-06-26 18:01:25
阅读次数:
255
烦烦烦( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬运工。。。。。 jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"。 Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成 ...
分类:
其他好文 时间:
2017-06-04 13:43:06
阅读次数:
286
20170512 051201.py 文档读入数据,分列读取,计数 20170512 部分未整理,关于BP神经网络和神经网络最大熵。 20170518 部分未整理,关于LTP分词。 20170518 051803.py 051804.py 结巴分词的使用案例 051806.py 分词,去停用词,统计 ...
分类:
其他好文 时间:
2017-06-03 20:59:38
阅读次数:
254
近期,在安装结巴分词的时候遇到一些问题,纠结了好一阵,跟大家分享下,希望能有所帮助。先说下安装环境: windows7, 64位系统 python3.6,python3.5在结巴分词的官方github上,描述了关于结巴分词(jieba)的安装步骤 全自动安装:easy_install jieba 或 ...
分类:
编程语言 时间:
2017-05-17 00:44:47
阅读次数:
4578
主要列出现知道的几个工具: 1,scws中文分词支持php7 http://www.xunsearch.com/scws/index.php 2,phpanalysis中文分词,主要使用了机械分词方法 http://www.phpbone.com/phpanalysis/ 3,结巴中文分词(Pyth ...
分类:
Web程序 时间:
2017-04-13 14:54:21
阅读次数:
239