第1章 绪论 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。 数据挖掘是数据库中知识发现(knowledeg discovery in database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程。 KDD:输入数据→数据预处理→数据挖掘→后处理→信息 数据 ...
分类:
其他好文 时间:
2017-12-11 21:15:39
阅读次数:
234
生物信息学原理作业第五弹:K-means聚类的实现。 转载请保留出处! K-means聚类的Python实现 原理参考:K-means聚类(上) 数据是老师给的,二维,2 * 3800的数据。plot一下可以看到有7类。 怎么确定分类个数我正在学习,这个脚本就直接给了初始分类了,等我学会了再发。 下 ...
分类:
编程语言 时间:
2017-12-06 22:06:30
阅读次数:
296
非监督学习 非监督学习没有历史样本数据和标签,直接对数据分析或得结果。 k means 使用 k means重要参数 1. n_clusters 估计聚类的数量 2. n_init k means算法基于不同中心点运行的次数 3. max_tier k means一次运行的迭代次数,默认300,通常 ...
分类:
编程语言 时间:
2017-11-30 12:06:58
阅读次数:
180
一、监督学习 supervised learning 已有训练样本和分类器,通过训练样本来得到分类器的最佳模型,再利用这个模型来处理新样本。 (1)分类 (2)回归 (3)结构学习 structured learning (4)深度学习 常见算法: 反向传播算法 BP算法 二、半监督学习 semi- ...
分类:
其他好文 时间:
2017-11-29 21:58:14
阅读次数:
178
Java资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。awesome-java 就是 akullpp 发起维护的 Java 资源列表,内容包括:构建工具、数据库、框架、模板、安全、代码分析、日志、第三方库、书籍、Java 站点等等。伯乐在 ...
分类:
编程语言 时间:
2017-11-29 12:48:30
阅读次数:
452
引言 在机器学习领域,语言识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的东西,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。 现在,有这么一个有趣的例子,我接下来要 ...
分类:
编程语言 时间:
2017-11-28 01:38:42
阅读次数:
235
写在前面:这一个多月都在学习python,从python3基础、python爬虫、python数据挖掘与数据分析都有接触,最近看到一本机器学习的书(主要是学习相关算法) 于是就打算来做这份机器学习的笔记,笔记主要来源是《机器学习实战》以及网上一些博客资料和自己的理解,主要做我个人学习所用,初学者水平 ...
分类:
编程语言 时间:
2017-11-27 20:04:09
阅读次数:
177
聚类是一种无监督的学习,它将相似的对象归到同一个簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好 簇识别给出聚类结果的含义。假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在于,分类的目标事先巳知,而聚类则不 ...
分类:
编程语言 时间:
2017-11-21 01:19:28
阅读次数:
289
GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD上的论文《A Dirichlet Mu ...
分类:
其他好文 时间:
2017-11-13 21:28:18
阅读次数:
165
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式, ...
分类:
其他好文 时间:
2017-11-11 21:31:13
阅读次数:
136