在做数据同步校验的时候,需要从mysql fetch数据和hbase的数据进行对比,发现即使mysql数据变化了,类似下面的代码返回的值还是之前的数据。抽取的代码大概如下: 上面的代码,如果反复调用get_data_from_mysql函数,即使对于mysql数据库中同样一条数据变化,程序取出的还是 ...
分类:
数据库 时间:
2016-08-21 06:19:37
阅读次数:
218
1、ETL的定义 ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。 ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数 ...
分类:
其他好文 时间:
2016-08-14 15:59:36
阅读次数:
181
首先产品经理拿数据说话一定是没有错的。如果产品经理对数据抽取漫无目的,花了时间,但并不能产生指导性的产品设计思路。对此,我的理解是这样的:你的产品经理似乎没有搞清楚产品的价值功能,目标涣散,导致把控不了价值数据。我们先弄懂几个概念:A.价值数据?数据分析本身..
分类:
其他好文 时间:
2016-08-12 21:58:51
阅读次数:
110
今天在做一个数据抽取程序时遇到一个问题困扰好久才解决,这不是技术问题,而是常识和细心的问题。写出来让大家引起重视一下。 由于之前的程序长期用Oracle,并且数据标志字段采用的日期类型。在Oracle中日期格式基本是 “年月日时分秒”,因此我的程序里面也就采用了字符串格式日期格式"yyyy_MM-d ...
分类:
数据库 时间:
2016-08-04 21:10:27
阅读次数:
213
概述:数据抽取项目中,要求统计的数据报表定时发送报表。在网上搜了很多,没有发现比较好的文章。特做下笔记。实现:1、总体作业JOB截图流程:设置导出的Excel文件名变量,导出Excel,并将导出的Excel以附件形式发送到指定邮箱。其实实现邮件带附件主要是组件是:2、邮件设置..
分类:
其他好文 时间:
2016-07-29 19:16:49
阅读次数:
6603
一、前提知识:数据从源数据库向数据仓库抽取时,一般采用以下几种方式: 全抽取模式如果表的数据量较小,则可以采取全表抽取方式,以TRUNCATE/INSERT方式进行数据抽取。 基于时间戳的抽取模式如果源数据表是不可更新的数据(如大多数事务处理数据)或者是不可删除数据(只能失效历史记录的情况),则根据 ...
分类:
其他好文 时间:
2016-07-25 18:16:48
阅读次数:
314
Kettle Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle是一款国外开源的ETL工具,纯java ...
分类:
其他好文 时间:
2016-07-01 13:26:43
阅读次数:
168
文件上传:第(1)阶段,处理流程1、浏览器的表单上传文件到Tomcat服务器时,表单中的数据(包括普通文本域,也包括文件)被封装成了request对象
2、要想保存这些表单数据(普通文本、文件),就必须把这些信息从request对象抽取出来
3、把这些表单数据抽取出来的一个类叫做Ser..
分类:
Web程序 时间:
2016-06-18 01:37:38
阅读次数:
651
[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [二] 最基本,最自由的使用方式 上一篇大至 介绍了一下爬虫的框架设计,从这一篇开始着重介绍如何使用这个爬虫。 数据抽取定义 之前也有人反应说用Attribute+模型来定义抽取规则太花哨,实用性不强。实际上可能他没有仔细看 ...
分类:
其他好文 时间:
2016-05-25 10:39:05
阅读次数:
196
上一篇大至 介绍了一下爬虫的框架设计,从这一篇开始着重介绍如何使用这个爬虫。 数据抽取定义 之前也有人反应说用Attribute+模型来定义抽取规则太花哨,实用性不强。实际上可能他没有仔细看到我的设计,我的核心抽取不是Attrbiute+模型,而是采用类似JSON的定义格式,可以实现各种嵌套,各种能 ...
分类:
Web程序 时间:
2016-05-25 00:07:43
阅读次数:
2643