Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之中的一个。其训练常採用最大似然准则。且为防止过拟合,往往在目标函数中增加(能够产生稀疏性的) L1 正则。但对于这样的带 L1 正则的最大熵模型,直接採用标准的随机梯度下降法(SGD)会出现效率不高和...
分类:
其他好文 时间:
2015-09-30 19:35:31
阅读次数:
237
最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据。为什么不用Python尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,不敢班门弄斧,Python以后再说。目前,也只是需要的是一个快速原型,...
分类:
其他好文 时间:
2015-09-20 10:33:22
阅读次数:
250
机器学习与NLP专家、MonkeyLearn联合创始人&CEO Raúl Garreta面向初学者大体概括使用机器学习过程中的重要概念,应用程序和挑战,旨在让读者能够继续探寻机器学习知识
分类:
其他好文 时间:
2015-09-16 12:32:11
阅读次数:
236
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f....
分类:
编程语言 时间:
2015-09-13 22:48:35
阅读次数:
236
最近有个需求就是去除一个文本里面所有的非汉字字符。unicide的汉字有个范围u4e00-u9fa5。所以这个范围内的留下来就可以了。1 blog=u"【雅虎开始提示Chrome用户“升级”到Firefox】http://t.cn/RzHTFF5 国外有关浏览器、搜索引擎那些事儿,也是刀光剑影,恩怨...
分类:
其他好文 时间:
2015-09-08 15:01:38
阅读次数:
154
AbsoluteLayout.LayoutParamslayoutparams=newAbsoluteLayout.LayoutParams((int)(datashow.nWidth*wr),(int)(datashow.nHeight*hr),(int)(datashow.nLp*wr),
(int)(datashow.nTp*hr));
ButtonbuttonView=newButton(this);
buttonView.setPadding(1,1,1,1);//让数字全部显..
分类:
移动开发 时间:
2015-08-28 13:40:34
阅读次数:
205
之前下载过一个PDF,书名是《用python进行自然语言处理》,挺有意思的,加上NLP和机器学习目前大热,想趁着暑假涉猎一下。于是开始了入门NLP之旅。安装环境:Ubuntu14.04桌面版,python版本:2.7第一步:安装nltk,首先要安装pip工具:sudo apt-get install...
分类:
其他好文 时间:
2015-08-27 15:11:35
阅读次数:
136
文本处理基础1.正则表达式(Regular Expressions)正则表达式是重要的文本预处理工具。
以下截取了部分正则写法:
2.分词(Word tokenization)
我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理。文本规模 How many words?
我们引入变量Type和Token
分别代表词典中的元素(an...
分类:
编程语言 时间:
2015-08-26 20:14:22
阅读次数:
196
欢迎转载,转载请注明出处:
1.详细推导过程:
2.代码示例
万恶的GFW居然把github的上传端口给封了,于是我就只能用国内的这个山寨版了
https://gitcafe.com/NeighborhoodGuo/cs224d-problem-set3.git...
分类:
其他好文 时间:
2015-08-15 00:15:19
阅读次数:
234
欢迎转载,转载注明出处:
终于把最后一讲也看完了,stanford的NLP课程也接近了尾声,真的是非常的开心,这门课真的让我收获了很多。
这一课讲得就是DL在NLP方面的应用,其实大部分内容在之前的课上和之前的推荐阅读里都有提及,这一课也算是一门复习课吧。
同样的先overview一下:1.Model overview 2.Character RNNs on tex...
分类:
其他好文 时间:
2015-08-13 20:10:59
阅读次数:
136