原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo.html昨天实验室一位刚进组的同学发邮件来问我如何查找学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道...
分类:
编程语言 时间:
2014-11-24 11:35:45
阅读次数:
217
开这个博客主要是监督自己做学习笔记:1.数学上的以及学术上的。2.机器学习,视觉,数据挖掘,NLP。3.算法以及语言。Never ever forget pushing yourself out of your fucking comfort zone!
分类:
其他好文 时间:
2014-11-17 20:58:28
阅读次数:
129
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果...
分类:
编程语言 时间:
2014-11-15 11:31:57
阅读次数:
363
本人还没有做过自然语言处理,但是基于Deep Learning 的关注,自然也了解了一些Word2vec的强大。
Word2vec 是google 在2013年提供的一款将词表征为实数值向量的高效工具。而Word2vec
输出的词向量可用于做NLP 相关的工作,比如聚类、找同义词、词性分析等。Word2vec 大受欢迎的一个原因是其高效性, Tomas Mikolov 在[1]...
分类:
其他好文 时间:
2014-11-13 16:47:26
阅读次数:
192
数字抽取是非常用用的,常用于数据挖掘/分析,nlp智能处理。比如你要做一个机器人,这个机器人能对数字进行计算。当你问它【请问一千二百0八美分加5毛等于多少钱?】,它要告诉你是XXX美元或者XXX人民币。那么问题来了,它要告诉你结果,首先要知道问的是1208和5这两个数吧,然后需要知道单位和单位换算吧...
分类:
其他好文 时间:
2014-11-13 16:31:37
阅读次数:
362
算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,...
分类:
其他好文 时间:
2014-11-08 23:24:08
阅读次数:
474
Source Insight 提供了宏实现和命令实现。命令实现:1、代码排版需要借助indent工具。可以下载GnuWin32,可以安装大多数Linux命令。indent排版很简单。添加命令:indent.exe -npro -nip -nlp -npsl -i4 -ts4 -sob -l80 -s...
分类:
其他好文 时间:
2014-11-07 16:26:36
阅读次数:
480
前言以前HanLP使用“最短编辑距离”来做推荐器,效果有待提高,主要缺点是根据拼音序列的编辑距离推荐的时候,同音字交错很常见,而编辑距离却不那么大。这时我就在寻求一种补充的评分算法,去评判两个句子在拼音这一维度上的相似程度。区别最长公共子串(Longest Common Substring)指的是两...
分类:
编程语言 时间:
2014-11-07 16:17:17
阅读次数:
174
http://www.hankcs.com/nlp/ansj-word-pairs-array-tire-tree-achieved-with-arrays-dic-dictionary-format.htmlarrays.dic是一个双数组Trie树格式的词典,用文本的形式储存了索引,字串,bas...
分类:
编程语言 时间:
2014-11-04 12:32:05
阅读次数:
304
语言模型,马尔科夫模型,bigram,trigram
分类:
其他好文 时间:
2014-10-27 20:55:46
阅读次数:
205