码迷,mamicode.com
首页 > 其他好文 > 详细

降维案例

时间:2020-05-17 15:57:47      阅读:55      评论:0      收藏:0      [点我收藏+]

标签:信息   bsp   主成分分析   sklearn   and   image   height   das   描述   

一、数据集介绍

 该案例描述的是一段时间内客户的订单,预测用户下一次将会买那些订单。

数据集的信息如下:

  • products.csv  商品信息
  • order_products__prior.csv 订单与商品关系信息
  • orders.csv 订单信息
  • aisles.csv 商品所属的具体类别

1、 products.csv

import pandas as pd
product_df = pd.read_csv(rI:\machine_learn\example_\products.csv)
product_df.head(10)

技术图片

该文件是产品数据,里面的字段有product_id(产品ID),product_name(产品名称),aisle_id(产品类型)等。

2、order_products__prior.csv

order_products__prior_df = pd.read_csv(rI:\machine_learn\example_\order_products__prior.csv)
order_products__prior_df.head(10)

技术图片

该文件是产品和订单数据,里面的字段有product_id(产品ID),order_id(订单ID)等。

 3、orders.csv

orders_df = pd.read_csv(rI:\machine_learn\example_\orders.csv)
orders_df .head(10)

技术图片

 该文件是订单数据,里面的字段有user_id(用户ID),order_id(订单ID)等。

4、aisles.csv

aisles_df = pd.read_csv(rI:\machine_learn\example_\aisles.csv)
aisles_df .head(10)

技术图片

 该文件是产品类型数据,里面的字段有aisle_id(产品数据类型ID),aisle(产品类型名称)。

二、预测

现在探究的是用户和物品类型的关系:

技术图片

1、读取四张表

import pandas as pd
from sklearn.depositions import PCA

product_df = pd.read_csv(rI:\machine_learn\example_\products.csv)
order_products__prior_df = pd.read_csv(rI:\machine_learn\example_\order_products__prior.csv)
orders_df = pd.read_csv(rI:\machine_learn\example_\orders.csv)
aisles_df = pd.read_csv(rI:\machine_learn\example_\aisles.csv)

2、合并四张表

_mg = pd.merge(order_products__prior_df,product_df,on=[product_id,product_id])
_mg = pd.merge(_mg,orders_df,on=[order_id,order_id])
_ma = pd.merge(_mg,aisles_df,on=[aisle_id,aisle_id])

_ma.head(10) #输出

技术图片

  上面就是用户(user_id)与产品类型(aisle)的关系,但是现在需要统计的每一个用户的产品类型,所以用到交叉表(特殊的分组表)。可以查出每一个用户aisle(产品类型)的个数。

crossTab_df = pd.crosstab(_ma["user_id"],_ma["aisle"])
crossTab_df #输出

技术图片

技术图片

3、主成分分析 

pca = PCA(n_components=0.9)
data = pca.fit_transform(crossTab_df)
data #输出

技术图片

可以看看输出的行列:

data.shape
"""
(206209, 27)
"""

 

降维案例

标签:信息   bsp   主成分分析   sklearn   and   image   height   das   描述   

原文地址:https://www.cnblogs.com/shenjianping/p/12885703.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!