码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
EPG文件数据清洗
批量文件检查? for?id?in?`seq?0?9` do ./check2.sh?epg_201506270$id.dat done for?id?in?`seq?10?23` do ./check2.sh?epg_20150627$id.dat done for?id?in?`seq?0??9` do ./filter.sh?epg...
分类:其他好文   时间:2015-09-03 19:15:16    阅读次数:368
机器学习漫谈
机器学习漫谈             数据挖掘/机器学习项目一般包括四个关键部分,分别是,数据分析,特征工程,建立模型,验证。 1     数据分析          从广义上讲,数据分析包括数据收集,数据处理,数据清洗,探究性数据分析,建模和算法设计,数据可视化等等[1]。从狭义上讲,数据分析指的是探究性数据分析(EDA)。          所谓探索性数据分析(ExploratoryD...
分类:其他好文   时间:2015-08-12 21:53:11    阅读次数:263
python_random随机
在数据清洗,评估 ,抽验等等过程中,经常有这样的应用场景 : 需要在一个大的数据集合中随机出来样本,进行人工评估。为了保证足够随机,借助脚本来实现。下面一个脚本 ,用于应对这种应用场景。使用方法: python random_select_line.py -h建议:自定义 alias random....
分类:编程语言   时间:2015-08-08 14:47:58    阅读次数:137
人肉工程在机器学习实践中的作用
关于人肉工程,包括业务知识、领域知识,经验等,在实际的机器学习问题中的应用,是一个屡见不鲜的话题,典型的有苦逼的数据清洗、人肉特征工程等。大家都想把尽可能多的过程由机器自动完成,但是目前的状态是,大部分机器学习问题中,最困难也最重要的部分,还是依靠人的经验来生成特征。那么人的经验为什么重要,能否用机...
分类:其他好文   时间:2015-07-29 10:13:07    阅读次数:122
scikit-learn:数据集预处理(clean数据、reduce降维、expand增维、generate特征提取)
本文参考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包括四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。 重要的不翻译:scikit-learn provides a library of transformers, whi...
分类:其他好文   时间:2015-07-17 10:09:01    阅读次数:145
过拟合的处理
处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值)
分类:其他好文   时间:2015-07-11 22:41:55    阅读次数:478
数据挖掘笔记
关联分析、噪声、高维性数据挖掘不是信息检索数据库中知识发现KDD:输入数据->数据预处理(特征选择、维归约、规范化、选择数据子集)->数据挖掘->后处理(模式过滤、可视化、模式表示)->信息数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值..
分类:其他好文   时间:2015-07-07 13:16:33    阅读次数:239
机器学习中的数据清洗与特征处理综述
机器学习中的数据清洗与特征处理综述随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如...
分类:其他好文   时间:2015-07-01 20:39:26    阅读次数:115
数据清洗小记:字符串转日期:时间戳引来的问题
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。 深蓝的blog:   【背景】        在进行数据抽取时,源端“时间意义”字段数据为“时间戳格式”,而且字段类型为字符串类型。但是目标端要求,进入数据为date类型,需要清洗。   【解决】        遇到这种问题,起初可能会比较棘手,但通过对“时间戳格式”进行简单分析后,...
分类:其他好文   时间:2015-06-16 09:16:32    阅读次数:204
Data Flow ->> Fuzzy Lookup & Fuzzy Grouping
这两个任务的作用是数据清洗(Data Cleansing)。Fuzzy Lookup通过引用另外一张数据库表或者索引来进行相似值匹配。这种组件对于标准化和查找可能错误的客户端数据非常有用。例如像地址或者像城市名这种属性栏位非常有用。Fuzzy Lookup不仅会输出它的匹配值,同时还会输出simil...
分类:其他好文   时间:2015-06-13 18:20:29    阅读次数:176
368条   上一页 1 ... 32 33 34 35 36 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!