数据挖掘 贝叶斯分类 [toc] 1. 贝叶斯分类器概述 1.1 贝叶斯分类器简介 1.1.1 什么是贝叶斯分类器? 贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器 1.1.2 朴素贝叶斯分类器 朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。 ...
分类:
其他好文 时间:
2020-03-30 19:28:36
阅读次数:
90
什么是机器学习? 机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。 目前机器学习主要在一下一些方面发挥作用: 营销类场景:商品推荐、用户群体画像、广告精准投放 金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测 SNS关系挖掘:微博粉 ...
分类:
其他好文 时间:
2020-03-30 16:39:57
阅读次数:
164
SAP官方帮助文档: https://www.sapanalytics.cloud/resources smart discovery/ SAP Analytics Cloud的Smart Discovery功能,底层基于机器学习技术,帮助用户对其业务数据进行挖掘,以作出更快更有效的商业决策。 新建 ...
分类:
其他好文 时间:
2020-03-29 12:36:42
阅读次数:
99
Task3特征工程 常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准正态分布); 归一化(抓换到 [0,1] 区间); 针对幂律分布,可以采用公式: log(1+x1+me ...
分类:
其他好文 时间:
2020-03-28 23:48:19
阅读次数:
127
用于数据分析的 OLAP 系统的主要特点就是数据量非常大,并发访问不多,但每次访问所需要检索的数据量都比较多,而且数据访问相对较为集中,没有什么比较明显的活跃数据概念。 OLAP 即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由 OLTP 形成的数据的一种分析型的数据库,用于处理商 ...
分类:
其他好文 时间:
2020-03-28 19:52:06
阅读次数:
71
区块链:告别浮躁 深耕应用 “食品溯源、电子发票、物流跟踪、跨境支付……”2019年,区块链去中心化、可追溯、防篡改等硬核实力逐渐被挖掘,它不再是比特币的代名词,而正成为赋能千行百业的“利器”。 步入2020年,在政策的驱动下,随着各行业的高度重视以及领先科技企业入局,区块链技术将持续优化,并与人工 ...
分类:
其他好文 时间:
2020-03-28 16:19:48
阅读次数:
94
数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘。数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。在这里,小编跟大家介绍一下数据清洗的步骤和方法。 一、检查数据的质量 数据的完整性, ...
分类:
其他好文 时间:
2020-03-27 21:45:55
阅读次数:
105
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
Web程序 时间:
2020-03-25 18:49:49
阅读次数:
85
智慧农业涉及的新技术有很多,比如遥感技术、地理信息系统、GPS全球定位系统、物联网技术、5G高速无线通信、各种传感器技术,通过数据分析和数据挖掘为主的大数据技术以及机器视觉和深度学习的人工智能技术等。
分类:
其他好文 时间:
2020-03-25 10:27:49
阅读次数:
89
1.2.1 赛题概况 比赛要求参赛选手根据给定的数据集,建立模型,二手汽车的交易价格。 赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集 ...
分类:
其他好文 时间:
2020-03-25 09:16:08
阅读次数:
81