码迷,mamicode.com
首页 >  
搜索关键字:中文分词 最少单词数    ( 704个结果
Sphinx 安装
Sphinx是由俄罗斯人AndrewAksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果相关度的全文搜索功能。由于开发要求Sphinx中文分词,安装环境,就做下笔记[root@localhostmmseg-3.2.14]#yum-yinstallmakegccg++gcc-c++libtoolautoconfautomakeimake [..
分类:其他好文   时间:2014-11-20 15:34:22    阅读次数:138
lucene构建同义词分词器
在较复杂的lucene搜索业务场景下,直接网上下载一个作为项目的分词器,是不够的。那么怎么去评定一个中文分词器的好与差:一般来讲,有两个点;词库和搜索效率,也就是算法。 lucene的倒排列表中,不同的分词单元有不同的PositionIncrementAttribute,如果两个词有着相同位置属性,比如:我定义美国和中国这两个词在倒排列表中是同一个位置,那么搜索美国的话,中国也能出来。这就是同义词搜索原理。 以下代码(用mmseg的 Tokenizer 去切词之后,然后再做同义词): 先自定义...
分类:Web程序   时间:2014-11-19 18:47:09    阅读次数:265
中科院中文分词系统ICTCLAS如何在安卓平台上使用
============问题描述============ 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该如何引用,如果有别的分词系统使用...
分类:移动开发   时间:2014-11-11 16:10:08    阅读次数:206
Solr 4.10.1 + tomcat 7 + zookeeper + HDFS 集成 (SolrCloud+HDFS)配置
搭建SolrCloud ,zookeeper ,HDFS ,IK中文分词器,注意事项...
分类:其他好文   时间:2014-11-04 15:08:28    阅读次数:628
【算法】基于树形结构分词
1 #!/usr/bin/env python 2 #encoding=gbk 3 import os 4 import sys 5 6 G_ENCODING="gbk" 7 """ 8 =============================== 9 中文分词 10 1. ...
分类:编程语言   时间:2014-10-30 18:38:30    阅读次数:228
(5)【整合】基于机器学习的酒店评论文本倾向性分析
酒店评论情感分析系统(五)——【整合】基于机器学习的酒店评论文本倾向性分析本文主要是对之前的第三、四节所介绍的各分块进行整合。流程:对GUI界面输入的评论文本,先进行中文分词和去停用词,然后再按“环境,价格,卫生,服务”四个方面分类;同时通过调用LingPipe中的DynamicLMClassifi...
分类:其他好文   时间:2014-10-24 21:59:45    阅读次数:252
中科院中文分词系统ICTCLAS如何在安卓平台上使用
============问题描述============ 最近的安卓开发中需要用到中文分词,就用了中科院的这个分词系统,但是按java应用程序方法引入API中的文件(DATA,ICTCLAS,Configure)等程序总会报错,请问有人在安卓平台上用过吗?麻烦告诉我该如何引用,如果有别的分词系统使用...
分类:移动开发   时间:2014-10-20 22:37:37    阅读次数:236
(3.2)将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类
酒店评论情感分析系统(三)——将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类思想:将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArray)中,从中找出所有和“环境、卫生、价格、服务”四个方面相关的词或短语,并记录下其位置信息(sortRefNum)。然后按照位...
分类:其他好文   时间:2014-10-20 20:53:44    阅读次数:311
WordPress中文分词与智能搜索
问题WordPress的搜索功能非常简陋,如果用户搜索“日语综合教程第六册”,WordPress会机械地构造一个wp_posts.post_title LIKE '%日语综合教程第六册%'的SQL查询送到数据库里,结果十有八九找不到任何文章。因为我的文章里并没有直接出现这种句子,我一般给“日语综合教...
分类:其他好文   时间:2014-10-19 14:11:18    阅读次数:302
中文分词算法
转自:http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定...
分类:编程语言   时间:2014-10-18 16:51:52    阅读次数:273
704条   上一页 1 ... 62 63 64 65 66 ... 71 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!