码迷,mamicode.com
首页 > 其他好文 > 详细

阿里云-建模比赛

时间:2020-09-18 01:17:41      阅读:52      评论:0      收藏:0      [点我收藏+]

标签:href   stat   年收入   util   利用   test   查看   等级   技术   

数据地址:https://tianchi.aliyun.com/competition/entrance/531830/information

1.导入模块和数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(ignore)

data_train = pd.read_csv(F:/python/阿里云金融风控-贷款违约预测/train.csv)
data_test_a = pd.read_csv(F:/python/阿里云金融风控-贷款违约预测/testA.csv)

2.数据基本认知

data_train.shape,data_test_a.shape
((800000, 47), (200000, 48))

查看y值的分布

data_train[isDefault].value_counts().plot.bar()
plt.show()
data_train[isDefault].value_counts()/len(data_train)# 0    0.800488  ,1    0.199513
plt.pie([0.800488,0.199513],labels=[0,1],autopct=%1.2f%%)

 技术图片技术图片

可以看出y值分布还是比较符合现实的情况

3.区分数值型和类别性特征

numerical_fea = list(data_train.select_dtypes(exclude=[object]).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

 

结合一下字段含义,看看二者所属类型是否是符合真实情况

 1 Field   Description
 2 id  为贷款清单分配的唯一信用证标识
 3 loanAmnt    贷款金额
 4 term    贷款期限(year)
 5 interestRate    贷款利率
 6 installment 分期付款金额
 7 grade   贷款等级
 8 subGrade    贷款等级之子级
 9 employmentTitle 就业职称
10 employmentLength    就业年限(年)
11 homeOwnership   借款人在登记时提供的房屋所有权状况
12 annualIncome    年收入
13 verificationStatus  验证状态
14 issueDate   贷款发放的月份
15 purpose 借款人在贷款申请时的贷款用途类别
16 postCode    借款人在贷款申请中提供的邮政编码的前3位数字
17 regionCode  地区编码
18 dti 债务收入比
19 delinquency_2years  借款人过去2年信用档案中逾期30天以上的违约事件数
20 ficoRangeLow    借款人在贷款发放时的fico所属的下限范围
21 ficoRangeHigh   借款人在贷款发放时的fico所属的上限范围
22 openAcc 借款人信用档案中未结信用额度的数量
23 pubRec  贬损公共记录的数量
24 pubRecBankruptcies  公开记录清除的数量
25 revolBal    信贷周转余额合计
26 revolUtil   循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
27 totalAcc    借款人信用档案中当前的信用额度总数
28 initialListStatus   贷款的初始列表状态
29 applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请
30 earliesCreditLine   借款人最早报告的信用额度开立的月份
31 title   借款人提供的贷款名称
32 policyCode  公开可用的策略_代码=1新产品不公开可用的策略_代码=2
33 n系列匿名特征 匿名特征n0-n14,为一些贷款人行为计数特征的处理

 

阿里云-建模比赛

标签:href   stat   年收入   util   利用   test   查看   等级   技术   

原文地址:https://www.cnblogs.com/cgmcoding/p/13667882.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!