中文分词就是将一个汉字序列分成一个一个单独的词。 现有的分词算法有三大类: 基于字符串匹配的分词:机械分词方法,它是按照一定的策略将待分析的字符串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 基于理解的分词方法:通过让计算机模拟人对句子的理解,达到识别词的效果,特点 ...
分类:
其他好文 时间:
2017-12-23 14:11:20
阅读次数:
134
安装目录假设为#solr_home,本文的#solr_home为apps/svr/solr 1. 在#solr_home/server/solr下新建文件夹,假设为mjd 2. 将#solr_home/server/solr/configsets/_default下的conf文件夹拷贝到#solr_ ...
分类:
数据库 时间:
2017-12-19 00:48:55
阅读次数:
233
背景 Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。工具支持词性标注,所以就可以依据词性进行分词结果的过滤。 词性介绍 1. 名词 (1个一类,7个二类,5个三类) 名词分为以下子类: n 名 ...
分类:
其他好文 时间:
2017-12-09 19:34:40
阅读次数:
239
在Spark中使用ansj分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github:https://github.com/NLPchina/ansj_seg ansj下载链接:https://oss.sonatype.org/conten ...
分类:
其他好文 时间:
2017-12-08 19:17:12
阅读次数:
917
提高查询速度,有利于排序和分组. (排序和分组如用不上索引,则会产生临时表和filesort的过程) 根据业务逻辑,分析列查询的频度和顺序, 建立索引和复合索引. 主键索引(primary key), >不需要有索引名,因为只有一个主键索引 唯一索引(unique key) >unique key ...
分类:
数据库 时间:
2017-12-07 17:25:27
阅读次数:
458
NLPIR/ICTCLAS分词系统针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。系统还支持在线用户词典的输入,用户可以在右下方添加用户词... ...
分类:
其他好文 时间:
2017-12-04 16:42:05
阅读次数:
204
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F ...
分类:
编程语言 时间:
2017-12-04 11:43:07
阅读次数:
334
比较两个文本的相似度 这里采用 simHash 算法 ; 分词是 基于 http://hanlp.linrunsoft.com/ 的开源 中文分词包 来实现分词 ; 实现效果图: 直接上源码: https://pan.baidu.com/s/1hr4ymKs kbih ...
分类:
编程语言 时间:
2017-12-03 16:29:48
阅读次数:
889
在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py install 模式 接口 组件只提供 ...
分类:
其他好文 时间:
2017-11-14 11:14:40
阅读次数:
110
简介一 切词二 去除停用词三 构建词袋空间VSMvector space model四 将单词出现的次数转化为权值TF-IDF五 用K-means算法进行聚类六 总结简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于python实现的中文文本聚类(乃至搜索关键词python 中文文... ...
分类:
其他好文 时间:
2017-11-11 11:44:06
阅读次数:
237