前面的文章中我们讲道,像趣头条类的APP对于收徒和阅读行为给予用户现金奖励的方式势必会受到大量羊毛党黑产的注意,其实单个用户能薅到的钱是没有多少的,为了达到利益最大化,黑产肯定会利用各种手段构建大量账号来薅APP运营企业的羊毛,因为收徒的奖励远高于阅读,所以赚取收徒奖励就成了最严重的薅羊毛手段。前文 ...
分类:
其他好文 时间:
2019-10-12 10:36:10
阅读次数:
143
作为聚类的代表算法,k-means本属于NP难问题,通过迭代优化的方式,可以求解出近似解。 伪代码如下: 1,算法部分 距离采用欧氏距离。参数默认值随意选的。 2,验证 我随机出了一些平面上的点,然后对其分类。 首先看看未分类之前的,当然也是跟分类后的分布是一样的。 然后看看分类后的结果: 可以看出 ...
分类:
编程语言 时间:
2019-10-11 23:19:06
阅读次数:
189
数据分析流程 一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程,每个部分需要掌握的细分知识点如下: 数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。 第一种是获取外部的公开数据集,一些科研机构、企业、 ...
分类:
编程语言 时间:
2019-10-09 15:18:08
阅读次数:
86
K-Means 是发现给定数据集的 K 个簇的聚类算法, 之所以称之为 K-均值 是因为它可以发现 K 个不同的簇, 且每个簇的中心采用簇中所含值的均值计算而成. 优缺点: 流程伪代码: 二分K-Mean聚类算法流程: 核心代码: ...
分类:
编程语言 时间:
2019-10-08 12:30:08
阅读次数:
77
工程实践概述 我的工程实践题目是《 多人对话场景中音频分离 》,题目要求的任务即说话人区分(Speaker Diarization)任务。说话人区分是声纹识别领域中的一个任务,具体是指根据说话者身份将输入的音频划分为同类片段的过程。说话人区分是说话人细分和说话人聚类的组合,第一个目标是找到音频中的说 ...
分类:
其他好文 时间:
2019-10-06 22:06:45
阅读次数:
101
应用场景: 可以应用在不同行业的客户分类管理上,比如航空公司,传统的RFM模型不再适用,通过RFM模型的变形LRFMC模型实现客户价值分析;基于消费者数据的精细化营销 应用价值: LRFMC模型构建之后使用了经典的聚类算法-K-Means算法来对客户进行细分,而不是传统的来与参考值对比进行手工分类, ...
分类:
编程语言 时间:
2019-10-05 20:21:01
阅读次数:
137
#k-means聚类分析 数据标准化zcdata=(cdata-cdata.mean())/cdata.std()zcdata.head()from sklearn.cluster import KMeanskmodel=KMeans(n_clusters=4,n_jobs=4,max_iter=1 ...
分类:
其他好文 时间:
2019-10-04 23:21:33
阅读次数:
233
一.聚类(clustering) 1.k-均值聚类(k-means) 这是机器学习领域除了线性回归最简单的算法了。该算法用来对n维空间内的点根据欧式距离远近程度进行分类。 INPUT: K(number of clusters) Training set{x1,x2,x3,....xn} (xi b ...
分类:
编程语言 时间:
2019-10-04 09:16:15
阅读次数:
792
机器学习简介: 特征向量 目标函数 机器学习分类: 有监督学习:分类问题(如人脸识别、字符识别、语音识别)、回归问题 无监督学习:聚类问题、数据降维 强化学习:根据当前状态预测下一个状态,回报最大化,回报具有延迟性,如无人驾驶、下围棋 深度学习数学知识:微积分、线性代数、概率论、最优化方法 一元函数 ...
分类:
其他好文 时间:
2019-10-03 12:58:27
阅读次数:
120