码迷,mamicode.com
首页 >  
搜索关键字:词干    ( 24个结果
NLTK学习笔记(三):NLTK的一些工具
主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 ConditionalFreqDist 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找 ...
分类:其他好文   时间:2017-06-13 21:49:13    阅读次数:266
自然语言处理----词干提取器
这里主要介绍nltk中的一些现成的词干提取器Porter和Lancaster. 1. Porter 2. Lancaster 3. 词形归并器:删除词缀产生的词, 常用的有WordNetLemmatier 从上面的运行结果可以看出,Porter词干提取器的效果比较好。 ...
分类:编程语言   时间:2017-06-08 22:25:16    阅读次数:262
Elasticsearch搜索之most_fields分析
顾名思义,most_field就是匹配词干的字段数越多,分数越高,也可设置权重boost。 下面是简易公式(详细评分算法请参考:http://m.blog.csdn.net/article/details?id=50623948): score=match_field1_score*boost+ma ...
分类:其他好文   时间:2017-04-06 19:48:28    阅读次数:286
Lemmatisation & Stemming 词干提取
Lemmatisation is closely related to stemming. The difference is that a stemmer operates on a single word without knowledge of the context, and therefo ...
分类:其他好文   时间:2016-10-20 00:22:24    阅读次数:180
什么是词干化处理
词干化处理: 在NLP中,我们对一句话或一个文档分词之后,一般要进行词干化处理。词干化处理就是把一些名词的复数去掉,动词的不同时态去掉等等类似的处理。 对于切词得到的英文单词要进行词干化处理,主要包括将名词的复数变为单数和将动词的其他形态变为基本形态。对动词的词干化可以使用 Porter 算法[5] ...
分类:其他好文   时间:2016-08-11 15:35:05    阅读次数:540
Lucene的分析过程
Lucene的分析过程分析(Analysis)是指将域文本(Field)转换成项(Term)的过程,“项”是索引的最基本表示单元。分析器通过一系列操作(可能包括:提取单词,去除标点符号,字段转换成小写,词干还原等),这个处理的过程称之为语汇单元化过程(tokenization),从文本流(Reader)中提取的文本块成为语汇单元(token),语汇单元与域名结合后,就形成了项(Ter...
分类:Web程序   时间:2016-05-12 16:32:37    阅读次数:205
coreNLP的使用
最近考虑做些英文词语词干化的工作,听说coreNLP这个工具不错,就拿来用了。 coreNLP是斯坦福大学开发的一套关于自然语言处理的工具(toolbox),使用简单功能强大,有;命名实体识别、词性标注、词语词干化、语句语法树的构造还有指代关系等功能,使用起来比较方便。 coreNLP是使用Java编写的,运行环境需要在JDK1.8,1.7貌似都不支持。这是需要注意的   ...
分类:其他好文   时间:2016-05-07 11:03:45    阅读次数:1015
Solr:文本分析
文本分析时搜索引擎的核心工作之一,对文本包含许多处理步骤,比如:分词、大写转小写、词干化、同义词转化等。简单的说,文本分析就说将一个文本字段的值转为一个一个的token,然后被保存到Lucene的索引结构中被将来搜索用。当然,文本分析不仅在建立索引时有用,在查询时对对所输入的查询串也一样可以进行文本...
分类:其他好文   时间:2015-12-18 16:38:59    阅读次数:246
ElasticSearch:IKAnalyzer中文分词器增加对英文分词的支持
当我们使用中文分词器的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。 我们的项目中使用IKAnalyzer作为中文分词器,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。其实这和真正的英文分词已经很接近了,只有一墙之隔:词干提取。一个真正的英文分词器除了...
分类:其他好文   时间:2015-08-12 13:18:15    阅读次数:1638
Java Next: Groovy、Scala or Clojure?
Java 下一代: 选择您的下一个 JVM 语言如果任意Java 下一代语言都适合作为您使用的下一代语言,那么您会如何选择?本文调查了会对这个重要决定产生影响的各个因素。Java 下一代: 克服同义词干扰上一期Java 下一代文章(“函数式编码风格”)对比和比较了 Scala、Groovy 和 Cl...
分类:编程语言   时间:2015-07-07 12:40:05    阅读次数:141
24条   上一页 1 2 3 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!