Ansj分词
这是一个基于n-Gram+条件随机场模型的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
源码:https://github.com/NLPchina/ansj_seg...
分类:
其他好文 时间:
2016-06-21 07:34:12
阅读次数:
897
上一期讨论了Tensorflow以及Gensim的Word2Vec模型的建设以及对比。这一期,我们来看一看Mikolov的另一个模型,即Paragraph Vector模型。目前,Mikolov以及Bengio的最新论文Ensemble of Generative and Discriminativ ...
分类:
其他好文 时间:
2016-05-30 01:05:17
阅读次数:
2325
一、安装 我使用的是在linux环境下运行的,所以首先去下载linux环境模拟器,下载的是cygwin因为要使用make命令工具,所以安装时要选中Devel与utils模块,默认安装没有安装make命令工具。记住一定要选中这两个模块,不然没有make命令工具没法运行makefile。 二、作用 我知 ...
分类:
其他好文 时间:
2016-05-25 00:22:17
阅读次数:
346
word2vec介绍word2vec官网:https://code.google.com/p/word2vec/
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec计算的是余弦值,距离范围为0-1之间,值越大代...
分类:
编程语言 时间:
2016-05-22 12:22:15
阅读次数:
456
word2vec介绍word2vec官网:https://code.google.com/p/word2vec/
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec计算的是余弦值,距离范围为0-1之间,值越大代...
分类:
编程语言 时间:
2016-05-22 12:21:15
阅读次数:
647
前言: 作为一个深度学习的重度狂热者,在学习了各项理论后一直想通过项目练手来学习深度学习的框架以及结构用在实战中的知识。心愿是好的,但机会却不好找。最近刚好有个项目,借此机会练手的过程中,我发现其实各大机器学习以及tensorflow框架群里的同学们也有类似的问题。于是希望借项目之手分享一点本人运行 ...
分类:
编程语言 时间:
2016-05-19 19:10:58
阅读次数:
2990
笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。
基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义;但是doc2vec不仅考虑了单词上下文的语义,还考虑了单词在段落中的顺序。
———————————...
分类:
编程语言 时间:
2016-05-06 15:22:52
阅读次数:
4972
Java调用NLPIC实现分词和标注工作,Python调用Word2Vec实现词向量相似度计算...
分类:
编程语言 时间:
2016-04-12 13:01:22
阅读次数:
1329
以前看的国外的一篇文章,用代码解释word2vec训练过程,觉得写的不错,转过来了 原文链接 http://nbviewer.jupyter.org/github/dolaameng/tutorials/blob/master/word2vec-abc/poc/pyword2vec_anatomy.
分类:
其他好文 时间:
2016-03-07 20:58:13
阅读次数:
369
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了非常多人的关注。因为 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上添加了这个工具包的
分类:
其他好文 时间:
2016-02-26 13:53:56
阅读次数:
188