一直以为梯度下降很简单的,结果最近发现我写的一个梯度下降特别慢,后来终于找到原因:step size的选择很关键,有一种叫backtracking line search的梯度下降法就非常高效,该算法描述见下图:下面用一个简单的例子来展示,给一个无约束优化问题:minimize y = (x-3)*...
分类:
其他好文 时间:
2014-12-30 01:40:15
阅读次数:
664
基于信息检索课程,完成实现了一个文本分类系统,现记录一下整个实现过程。
文本分类以文本数据为分类对象,本质上是机器学习方法在信息检索领域的一种应用,可以继承机器学习领域的很多概念和方法,但同时也需要结合信息检索领域的特点进行处理。主要研究的方向是:文本分词方法、文本特征提取方法、分类算法。
本人主要使用了5种常用的分类算法,分别是kNN、Rocchio、NBC、SVM和ANN,对每种算法的结果...
分类:
其他好文 时间:
2014-12-29 16:49:34
阅读次数:
185
R语言:利用caret包中的dummyVars函数进行虚拟变量处理
dummyVars函数:dummyVars creates a full set of dummy variables (i.e. less than full rank parameterization----建立一套完整的虚拟变量...
分类:
编程语言 时间:
2014-12-29 12:07:27
阅读次数:
1133
斯坦福NG机器学习听课笔记-推荐系统(recommender system),NG从电影评级简单例子开始讲,把推荐系统中概念与核心算法(协同过滤)都有清晰的描述。...
分类:
其他好文 时间:
2014-12-29 10:28:57
阅读次数:
237
FaceRecognizer类
OpenCV中所有人脸识别的模型都是继承自FaceRecognizer这个基类,这个类提供了人脸识别算法的统一接口。
class FaceRecognizer : public Algorithm
{
public:
//! virtual destructor
virtual ~FaceRecognizer() {}
// Tra...
分类:
其他好文 时间:
2014-12-28 22:22:23
阅读次数:
587
什么是神经网络
人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
神经网络BP算法
BP...
分类:
其他好文 时间:
2014-12-28 20:54:23
阅读次数:
1132
分类:将实例数据划分到合适的分类中。目标变量是离散型。回归:预测数值型数据。目标变量是连续型的数值。监督学习:必须知道预测什么,即目标变量的分类信息。目标变量是机器学习算法的预测结果。开发机器学习应用程序的步骤:1)收集数据;2)准备输入数据;3)分析输入数据;4)训练算法;5)测试算法;6)使用算...
分类:
其他好文 时间:
2014-12-28 20:46:50
阅读次数:
109
StanfordSegmenter是Stanford大学的一个开源分词工具,目前已支持汉语和阿拉伯语,只是比较耗费内存,但貌似比中科院的分词工具快(具体没测)。StanfordSegmenter是基于CRF(ConditionalRandomField,条件随机场),CRF是一个机器学习算法,其原理是字构成词,利用此原理把分..
分类:
其他好文 时间:
2014-12-28 18:21:00
阅读次数:
322
转自InfoQ,作者张天雷机器学习是目前数据分析领域的一个热点内容,在平时的学习和生活中经常会用到各种各样的机器学习算法。实际上,基于Python、Java等的很多机器学习算法基本都被前人实现过很多次了。这些算法在网上可以找到很多,然而往往存在很多“脏”或者“乱”的开源代码。在这样的背景下,Info...
分类:
其他好文 时间:
2014-12-27 21:43:05
阅读次数:
185