一些常见的NLP任务的开源/免费工具,*Computational Linguistics ToolboxCLT http://complingone.georgetown.edu/~linguist/compling.htmlGATE http://gate.ac.uk/Natural Langu...
分类:
其他好文 时间:
2014-10-25 22:51:10
阅读次数:
236
各种工具包的有效利用可以使研究者事半功倍。以下是NLP版版友们提供整理的NLP研究工具包。同时欢迎大家提供更多更好用的工具包,造福国内的NLP研究。*NLP ToolboxCLThttp://complingone.georgetown.edu/~linguist/compling.htmlGATE...
分类:
其他好文 时间:
2014-10-25 22:44:19
阅读次数:
233
3.4Lucene工具箱之OpenBitSet在Lucene中,DocId具有这样的特征:唯一/递增。而且在搜索的过程,不同term之间的DocId集合进行逻辑运算的需求非常之多。OpenBitSet正是集合运算的利器。3.4.1OpenBitSet的原理假设有一个byte,一共有8个二进制位,如下图:0000000001234567如果每..
分类:
Web程序 时间:
2014-10-25 12:01:04
阅读次数:
306
Investigating issues with Unmanaged Memory. First steps.
分类:
其他好文 时间:
2014-10-25 09:14:51
阅读次数:
245
一、本章思维导图 二、Solr的安装和部署 1.介绍Lucene和Solr分别是什么的? Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文...
分类:
Web程序 时间:
2014-10-25 00:46:25
阅读次数:
248
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-10-24 20:43:52
阅读次数:
270
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-10-24 20:31:11
阅读次数:
313
基于Java的全文索引/检索引擎——Lucene Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经.....
分类:
编程语言 时间:
2014-10-24 16:27:23
阅读次数:
1354
网络拓扑 图 1 网络拓扑图安装Java JDK首先查看系统是否已经安装了其它版本号的JDK,假设有,先要把其它版本号的JDK卸载。用root用户登录系统。# rpm-qa|grepgcj显示内容当中包括以下两行信息#java-1.6.0-ope...
分类:
Web程序 时间:
2014-10-24 16:01:20
阅读次数:
333
SchemaXml - Solr Wiki Search: Solr WikiLoginSchemaXmlFrontPageRecentChangesFindPageHelpContentsSchemaXmlImmutable PageCommentsInfoAttachmentsMor...
分类:
其他好文 时间:
2014-10-24 15:53:10
阅读次数:
9949