1.单词的向量化表示 一般来讲,词向量主要有两种形式,分别是稀疏向量和密集向量。 所谓稀疏向量,又称为one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小N,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的索引。 至于密集向量,又称dis ...
分类:
其他好文 时间:
2017-11-04 18:01:10
阅读次数:
341
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn是Scipy的扩展,建立在NumPy和matplotl ...
分类:
其他好文 时间:
2017-11-03 14:19:59
阅读次数:
179
安装nltk.参考:http://www.cnblogs.com/kylinsblog/p/7755843.html NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。 下面介绍如何利用NLTK快速完成NL ...
分类:
其他好文 时间:
2017-10-31 18:40:53
阅读次数:
158
自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括: 1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别和多义词消歧。 2.信息抽取:从给定文本中抽取重要的信息,比如,时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。 ...
分类:
编程语言 时间:
2017-10-30 16:00:32
阅读次数:
284
回声消除AEC包含: 延时估计对齐+线性自适应滤波器+NLP(双讲检测、处理)+舒适噪声CNG 一、speex aec 1、没有NLP 2、只考虑实时DSP系统,即是没有延时对齐等 3、自适应滤波(MDF)使用双滤波器结构,自适应滤波器因子自动更新 二、webrtc aec 1、双讲检测没有,双讲时 ...
分类:
Web程序 时间:
2017-10-30 14:14:11
阅读次数:
515
(三)机器学习笔记之Scikit Learn的线性回归模型初探 ...
分类:
其他好文 时间:
2017-10-27 11:30:17
阅读次数:
1731
跟着Bag of Words Meets Bags of Popcorn的初学者实例,敲了一遍代码。主要用到的是CountVectorizer,生成每个评论的词频向量,然后利用随机森林建立模型,对新的评论进行预测。提交之后,分数大概为0.84。 ...
分类:
编程语言 时间:
2017-10-24 11:34:57
阅读次数:
230
本文转自:http://www.hankcs.com/nlp/cs224n-tensorflow.html 这节课由TA们介绍了TF里的几个基本概念(graph、variable、placeholder、session、fetch、feed),基本流程。然后现场敲代码演示如何在TF上跑线性回归和训练 ...
分类:
其他好文 时间:
2017-10-20 21:45:39
阅读次数:
332
本文转自:http://www.hankcs.com/nlp/cs224n-9-nmt-models-with-attention.html 90年代出现了一种类似RNN的更复杂的框架: ...
分类:
其他好文 时间:
2017-10-20 21:42:05
阅读次数:
221
本文转自:http://www.hankcs.com/nlp/cs224n-mt-lstm-gru.html 其中,带黑点的表示离散的向量表示,否则表示连续的向量空间。 3、使用深度RNN LSTM单元结构如下: 那时候的NN模型还是仅限于重新排序传统MT模型产生的结果,而最新的研究就是完全甩开了M ...
分类:
其他好文 时间:
2017-10-20 21:35:44
阅读次数:
525