分享一个我们做的实时数据仓库的例子。
客户是地市级烟草公司,需要实时的卷烟销售数据分析,每天的数据量约10万条,集中在4个小时内发生。
我们的处理办法是:
1、维表信息每晚处理好(客户在当天定烟的过程中,是不会去维护基础档案的内容的);
2、历史事实表数据也是每晚处理好;
3、当天的定烟数据,做一个查询业务系统数据的视图,只查询当天的数据(查询一次的时间约2-3秒);
4、将历史数据和...
分类:
其他好文 时间:
2014-08-04 17:59:27
阅读次数:
194
使用NLPIR-ICTCLAS2014分词系统...
分类:
其他好文 时间:
2014-08-04 14:18:57
阅读次数:
258
基于底层数据分析,必备。DLL丢失... WinPcap是用于网络封包抓取的一套工具,可适用于32/64位的操作平台上解析网络封包,包含了核心的封包过滤,一个底层动态链接库,和一个高层系统函数库,及可用来直接存取封包的应用程序界面。WinPcap_4_1_2.rar烈焰下载:http://pan.b...
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re
import urllib,urllib2
#----------模拟浏览器的行为,向谷...
分类:
编程语言 时间:
2014-08-03 20:39:45
阅读次数:
338
atitit.提升备份文件复制速度(4) ---数据挖掘 获取回收站文件列表
1. 放入回收站的原理and 1
2. info2文件文件结构 1
3. 获得文件列表2个法: 正则表达式or解析
1
4. 路径正则表达式[a-zA-Z]\:[\\a-zA-Z0-9\xB0-\xF7\xa1-\xfe_.~]+ 2
5. 参考 2
1. 放入回收站的原理and
info2...
分类:
其他好文 时间:
2014-08-03 20:37:45
阅读次数:
195
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:
其他好文 时间:
2014-08-03 12:40:45
阅读次数:
194
列表和数据框
1.列表
list函数创建列表
> (a_list 1,-3),nrow=2),asin))
[[1]]
[1] 1 1 2 5 14 42
[[2]]
[1] "Jan" "Feb" "Mar" "Apr" "May" "Jun" "Jul" "Aug" "Sep" "Oct" "Nov" "Dec"
[...
分类:
其他好文 时间:
2014-08-02 10:08:33
阅读次数:
303
大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
bag-of-words model的java实现...
分类:
编程语言 时间:
2014-08-01 23:19:02
阅读次数:
291
【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bu...
分类:
数据库 时间:
2014-08-01 23:04:32
阅读次数:
557