业务梳理 得到每个用户的违约概率(信用评分)目标变量:用户的违约概率 数据清洗 关联相关表使用mysql将导入txt数据并且进行合并。 压缩数据bank_detail 和 bill_detail 和 用户浏览行为表 不能直接进行关联,目前的想法,将这两张表的信息分别压缩到每个 user_id 上。b... ...
分类:
其他好文 时间:
2018-04-26 21:43:42
阅读次数:
187
数据清洗: 所谓的数据清洗,就是把一些异常的、缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响。拿到数据后,我们进行数据清洗分为两方面: 缺失值:在下载数据、搜集数据的时候刚好就缺失。可以通过查找的方法去 ...
分类:
编程语言 时间:
2018-04-25 18:52:11
阅读次数:
206
这个bug改了实在是太多天了,前前后后折腾了太久,最后多谢@CC学长的帮助,找到了问题,才终于跑通了!!!这里记录一下这个bug我前后改的过程,引以为戒! 毕设中需要进行mapreduce进行数据清洗,我把这段代码单独进行编写,运行成功后将内容添加进毕设相对应的部分,结果跑不了了。。。 前后出过的问 ...
分类:
其他好文 时间:
2018-04-18 18:56:38
阅读次数:
205
用python 处理数据movielens 100, 并用matlab文件保存。 ...
分类:
其他好文 时间:
2018-04-17 11:50:30
阅读次数:
195
今天闲逛一下求职要求,自己早在半年前就已经下定义了一个目标:大数据工程师 既然这样,就定点技术大方向要求吧~ ,不断加油不断努力ing 工作要求: 1、负责公司大数据分析平台的搭建,处理海量数据;2、负责数据模型的制定和实现;3、负责数据清洗和过滤、特征抽取、参数选择、算法实验、效果分析;4、负责数 ...
分类:
其他好文 时间:
2018-04-11 11:45:51
阅读次数:
132
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
分类:
其他好文 时间:
2018-04-09 00:14:41
阅读次数:
367
假期闲着无聊,做了一下Kaggle练手的项目--预测泰坦尼克号乘客的存活情况。对于一些函数和算法,刚开始也是懵懵懂懂的,但通过自己查资料,还是明白了许多,我会把参考资料的网址放在需要查看的地方。 我们的整个流程如下: ①数据预处理:数据清洗、可视化、标签化 ②分割训练数据 ③随机森林分类器及其参数调 ...
分类:
其他好文 时间:
2018-04-07 11:15:37
阅读次数:
1775
为一个信息流产品作数据抓取,其中数据清洗时必不可少的。其中有一个步骤就是清洗掉其中与内容无关的广告。文本通过语料库积累和NLP相关技术进行过滤,有些文字广告不过滤对产品影响也不大。有点儿麻烦的是其中的有些图片广告如果不过滤掉,在感官上会对产品造成很大的印象,为了解决这个问题,用了一些杂七杂八的方法, ...
分类:
其他好文 时间:
2018-04-06 17:35:02
阅读次数:
159