几位朋友找我,做一个基于spark的推荐系统。我们于是买了三台阿里云服务器折腾一下。 1.配置putty和安装nano 2.配置主机映射 /etc/hosts 3. ...
分类:
其他好文 时间:
2019-10-07 13:34:38
阅读次数:
92
Why 在推荐领域,经常要对categorical特征进行组合。但是一般的组合方式存在两个问题: one hot之后的特征具有高度稀疏性,维度灾难。 一般的线性模型没有考虑到特征之间的关系。$y=w_0+\sum_{i=1}^{n}w_ix_i$ What FM (Factorization Mac ...
分类:
其他好文 时间:
2019-10-03 16:20:16
阅读次数:
115
1.协同过滤算法概述 推荐系统应用数据分析技术,找出用户最可能喜欢的东西推荐给用户,现在很多电子商务网站都有这个应用。目前用的比较多、比较成熟的推荐算法是协同过滤(Collaborative Filtering,简称CF)推荐算法,CF的基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用 ...
分类:
编程语言 时间:
2019-09-30 21:43:18
阅读次数:
114
从三个点来说: 1)提供服务的对象 2)业务域 3)层次的划分 1)提供服务的对象 a、数据仓库的服务对象基本上是人。明细数据,聚合指标,转化率模型, 他们的目前用户都是人 b、数据中台的服务对象变成 人+机器。 用户标签、机器学习模型,数据挖掘模型,他们的目标是系统。比如说广告系统,推荐系统,风控 ...
分类:
其他好文 时间:
2019-09-29 18:15:16
阅读次数:
106
协同过滤 collaborative filtering 人以类聚,物以群分 相似度 1. Jaccard 相似度 定义为两个集合的交并比: Jaccard 距离,定义为 1 - J(A, B),衡量两个集合的区分度: 为什么 Jaccard 不适合协同过滤?—— 只考虑用户有没有看过,没考虑评分大 ...
分类:
其他好文 时间:
2019-09-22 14:33:52
阅读次数:
93
Dbus所支持两类数据源的实现原理与架构拆解。 大体来说,Dbus支持两类数据源: RDBMS数据源 日志类数据源 一、RMDBMS类数据源的实现 以mysql为例子. 分为三个部分: 日志抽取模块 增量转换模块 全量拉取模块 1.1 日志抽取模块(Extractor) mysql 日志抽取模块由两 ...
分类:
数据库 时间:
2019-09-18 11:38:01
阅读次数:
142
一、推荐系统流程图 CB,CF算法在召回阶段使用,推荐出来的item是粗排的,利用LR算法,可以将CB,CF召回回来的item进行精排,然后选择分数最高,给用户推荐出来。 二、推荐系统思路详解 代码思路: 1、数据预处理(用户画像数据、物品元数据、用户行为数据) 2、召回(CB、CF算法) 3、LR ...
分类:
其他好文 时间:
2019-09-16 09:33:06
阅读次数:
592
数据挖掘 推荐算法(Mahout工具) 一、简介 Apache顶级项目(2010.4) Hadoop上的开源机器学习库 可伸缩扩展的 Java库 推荐引擎(协同过滤)、聚类和分类 二、机器学习介绍 通常问题都归为这几类问题 分类问题 回归问题 聚类问题 推荐问题 三、安装方法 3.1 下载Mahou ...
分类:
编程语言 时间:
2019-09-07 13:38:47
阅读次数:
141
推荐系统遇上深度学习(十)--GBDT+LR融合方案实战 0.8012018.05.19 16:17:18字数 2068阅读 22568 0.8012018.05.19 16:17:18字数 2068阅读 22568 推荐系统遇上深度学习系列:推荐系统遇上深度学习(一)--FM模型理论和实践:htt ...
分类:
其他好文 时间:
2019-09-04 19:11:12
阅读次数:
151