在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包括的词语,则是理解汉语语句的第一步。汉语自己主动分词的任务,通俗地说。就是要由机器在文本中的词与词之间自己主动加上空格。 一提到自己主动 ...
分类:
其他好文 时间:
2017-06-28 18:37:30
阅读次数:
214
我们使用数据库的时候,如果查询条件太复杂,则会涉及到很多问题 1、无法维护,各种嵌套查询,各种复杂的查询,想要优化都无从下手 2、效率低下,一般语句复杂了之后,比如使用or,like %,,%查询之后数据库的索引就没有办法利用到了,这个时候的搜索就会全表扫描,数据量少的时候可能性能还能接受,但是数据 ...
分类:
其他好文 时间:
2017-06-18 15:50:45
阅读次数:
125
参考博客: http://blog.csdn.net/ayi_5788/article/category/6348409 分页: http://blog.csdn.net/hu948162999/article/details/41209699 1、 什么是中文分词 学过英文的都知道,英文是以单词为 ...
分类:
Web程序 时间:
2017-06-14 18:46:15
阅读次数:
322
Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的 ...
分类:
数据库 时间:
2017-06-13 23:54:57
阅读次数:
423
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。大jieba确实是中文分词中的战斗机。 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 分词 3种 ...
分类:
其他好文 时间:
2017-06-13 21:45:19
阅读次数:
218
原文:http://blog.csdn.net/k21325/article/details/53052855 摘要:为解决中文搜索的问题,最开始使用PHP版开源的SCWS,但是处理人名和地名时,会出现截断人名地名出现错误。开始使用NLPIR分词,在分词准确性上效果要比SCWS好。本文介绍如何在wi ...
分类:
编程语言 时间:
2017-06-10 15:16:16
阅读次数:
218
https://mp.weixin.qq.com/s/P-a-n1PsBL5hLZWVxyuLQw 「论文访谈间」是由 PaperWeekly 和中国中文信息学会青工委联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。 这是第 6 期「论文访谈间」 论文作者 | 陈新驰、施展、邱锡鹏、黄 ...
分类:
其他好文 时间:
2017-06-05 19:24:16
阅读次数:
586
烦烦烦( ˇ?ˇ ) http://www.oschina.net/p/jieba/ 搬运工。。。。。 jieba "结巴"中文分词:做最好的Python中文分词组件 "Jieba"。 Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成 ...
分类:
其他好文 时间:
2017-06-04 13:43:06
阅读次数:
286
Stanford NLP tools提供了处理中文的三个工具,分别是分词、Parser 具体参考: http://nlp.stanford.edu/software/parser-faq.shtml#o 1.中文分词 这个包比较大,运行时候需要的内存也多,因而如果用eclipse运行的时候需要修改虚 ...
分类:
其他好文 时间:
2017-05-29 14:37:38
阅读次数:
221
安装maven打包工具wgethttp://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz
tar-xfapache-maven-3.3.9-bin.tar.gz
mvapache-maven-3.3.9/usr/local/data/apache-maven
vim/etc/profile
exportMAVEN_HOME=/usr/local/data/apache-mave..
分类:
其他好文 时间:
2017-05-26 21:46:17
阅读次数:
1340