处理过拟合的方法:1、去噪(数据清洗);2、增加训练数据集(收集或构造新数据)3、正则化(L1、L2)4、减少特征数目5、对于决策树可以采用剪枝法6、采用组合分类器(装袋或随机森林)7、选择合适的迭代停止条件8、迭代过程中进行权值衰减(以某个小因子降低每个权值)
分类:
其他好文 时间:
2015-07-11 22:41:55
阅读次数:
478
关联分析、噪声、高维性数据挖掘不是信息检索数据库中知识发现KDD:输入数据->数据预处理(特征选择、维归约、规范化、选择数据子集)->数据挖掘->后处理(模式过滤、可视化、模式表示)->信息数据预处理阶段,涉及融合多个数据源的数据、清洗数据、去噪和重复的观测值..
分类:
其他好文 时间:
2015-07-07 13:16:33
阅读次数:
239
机器学习中的数据清洗与特征处理综述随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务发展方向提供决策支持,也为业务的迭代指明了方向。目前在美团的团购系统中大量地应用到了机器学习和数据挖掘技术,例如...
分类:
其他好文 时间:
2015-07-01 20:39:26
阅读次数:
115
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。
深蓝的blog:
【背景】
在进行数据抽取时,源端“时间意义”字段数据为“时间戳格式”,而且字段类型为字符串类型。但是目标端要求,进入数据为date类型,需要清洗。
【解决】
遇到这种问题,起初可能会比较棘手,但通过对“时间戳格式”进行简单分析后,...
分类:
其他好文 时间:
2015-06-16 09:16:32
阅读次数:
204
这两个任务的作用是数据清洗(Data Cleansing)。Fuzzy Lookup通过引用另外一张数据库表或者索引来进行相似值匹配。这种组件对于标准化和查找可能错误的客户端数据非常有用。例如像地址或者像城市名这种属性栏位非常有用。Fuzzy Lookup不仅会输出它的匹配值,同时还会输出simil...
分类:
其他好文 时间:
2015-06-13 18:20:29
阅读次数:
176
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。
深蓝的blog:
【背景】
某项目中,有查询时间段的业务需求,java代码类似如下:
and BANKJLSJ_BANKJLSJSSJto_date( #{endDate},’yyyy-mm-dd’)
and BANKJLSJ_BANKJLSJSSJ=]]> to_da...
分类:
其他好文 时间:
2015-06-11 11:11:50
阅读次数:
164
尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。
问题认知:数据清洗阶段
九十年代初期,在Inmon (1992),Kimball,
etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据...
分类:
其他好文 时间:
2015-06-08 11:48:25
阅读次数:
128
【背景】
在由源端抽取数据插入目标端后,需要创建一个主键ID字段。
【解决】
方法一、使用sys_guid()函数生成32位的随记数
例如向emp表中,新建一个字段,并且设置字段默认值为用sys_guid()函数自动生成一个32位不重复的随机数。
altertable EMP
addIDvarchar2(32)
default sys_guid();
方法二、使用触发器...
分类:
其他好文 时间:
2015-06-03 15:51:59
阅读次数:
150
【背景】
在处理数据时,在向为number类型的字段插入数据的时候,出现大量中文或无意义英文,查看发现均为垃圾数据,需要清洗。
【解决】
计划调用数字判断函数来完成判断,如果判断为数字类型的,存入数据,如果为非数字类型的,赋空值处理。
编写“判断是否为number”函数,如下:
createorreplacefunction
isnum(v_in varchar2)
retu...
分类:
其他好文 时间:
2015-06-03 09:46:25
阅读次数:
135
【背景】
在将某数字类型字段插入到目标端时,报错,提示类型不正确,查看数据发现确实为number,但发现为“全角”数字。
【解决】
利用函数,将“全角”转换成“半角”,使用如:to_single_byte()函数,对其转换,转换成半角后,成功存入数据库。
另外,如果遇到需要“半角”转换成“全角”的场合时,可以使用to_multi_byte()函数。
【实验】
小知识...
分类:
其他好文 时间:
2015-06-03 09:46:23
阅读次数:
166