所谓学习问题,是指观察由n个样本组成的集合,并依据这些数据来预測未知数据的性质。 学习任务(一个二分类问题): 区分一个普通的互联网检索Query是否具有某个垂直领域的意图。如果如今有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同一时候存在一个通用的搜索引擎,比方百度,通用搜索引 ...
分类:
编程语言 时间:
2017-06-05 19:24:09
阅读次数:
353
理论參考文献:但此文没有代码实现。这里自己实现一下,让理解更为深刻 问题:如果在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,觉得两者独立。然而从语义的角度来讲。两者是相似的。并且两者出现频率也类似,是不是能够合成为一个特征呢? 《模型选择和规 ...
分类:
编程语言 时间:
2017-06-03 21:42:24
阅读次数:
518
前言: 本系列是在作者学习《机器学习系统设计》([美] Willi Richert)过程中的思考与实践,全书通过Python从数据处理,到特征project,再到模型选择。把机器学习解决这个问题的过程一一呈现。书中设计的源码和数据集已上传到我的资源http://download.csdn.net/d ...
分类:
其他好文 时间:
2017-05-23 15:59:05
阅读次数:
427
Scikit-Learn库已经实现了所有基本机器学习的算法,可以直接调用里面库进行模型构建。 一、逻辑回归 大多数情况下被用来解决分类问题(二元分类),但多类的分类(所谓的一对多方法)也适用。这个算法的优点是对于每一个输出的对象都有一个对应类别的概率。 from sklearn import met ...
分类:
编程语言 时间:
2017-05-09 11:32:55
阅读次数:
280
Entity Framework 的小实例:在项目中添加一个实体类,并做插入操作 1>. 创建一个控制台程序2>. 添加一个 ADO.NET实体数据模型,选择对应的数据库与表(StudentModel.edmx)3>. 控件台代码 static void Main(string[] args) { ...
分类:
其他好文 时间:
2017-05-08 14:38:42
阅读次数:
458
EntityFramework的小实例:在项目中添加一个实体类,并做插入操作1>.创建一个控制台程序2>.添加一个ADO.NET实体数据模型,选择对应的数据库与表(StudentModel.edmx)3>.控件台代码staticvoidMain(string[]args)
{//创建一个网关接口,TestData是数据库名
TestDataEntitie..
分类:
其他好文 时间:
2017-05-08 14:32:40
阅读次数:
234
Scikit-Learn总结 Scikit-Learn(基于Python的工具包)1.是一个基于Numpy,Scipy,Matplotlib的开源机器学习工具包。2.该包于2007年发起,基本功能包涵了6个方面:分类、回归、聚类、数据降维、模型选择、预处理包括了大量常用的算法::SVM,逻辑回归,朴 ...
分类:
其他好文 时间:
2017-05-03 09:20:36
阅读次数:
1030
多进程、多线程 很多情况下我们会遇到编程模型选择的问题:多进程 or 多线程 ? 下面简要介绍下两者区别: 进程内所有线程共享进程资源 上面表格中写出了多线程、多进程的基本区别,除了上述内容我们还有一些需要关注的点: 之前看到很多人疑问,为什么高性能的nginx、redis要采用多进程模型而不是多线 ...
分类:
编程语言 时间:
2017-04-26 15:42:20
阅读次数:
197
十分钟搞定pandas http://www.cnblogs.com/chaosimple/p/4153083.html XGBoost模型调参、 http://www.2cto.com/kf/201607/528771.html 交叉验证及其用于参数选择、模型选择、特征选择的例子 http://b ...
分类:
编程语言 时间:
2017-04-25 17:08:50
阅读次数:
229
常见的机器学习模型:感知机,线性回归,逻辑回归,支持向量机,决策树,随机森林,GBDT,XGBoost,贝叶斯,KNN,K-means等; 常见的机器学习理论:过拟合问题,交叉验证问题,模型选择问题,模型融合问题等; K近邻:算法采用测量不同特征值之间的距离的方法进行分类。 优点: 1.简单好用,容 ...
分类:
其他好文 时间:
2017-04-07 15:52:23
阅读次数:
356