import sysimport datetimefor line in sys.stdin: line = line.strip() userid, movieid, rating, unixtime = line.split('\t') weekday = datetime.datetim...
分类:
其他好文 时间:
2014-08-31 00:17:50
阅读次数:
1780
http://blog.fens.me/linux-redis-install/在Ubuntu中安装RedisR利剑NoSQL系列文章,主要介绍通过R语言连接使用nosql数据库。涉及的NoSQL产品,包括Redis,MongoDB,HBase,Hive,Cassandra,Neo4j。希望通过我的...
分类:
其他好文 时间:
2014-08-30 17:43:49
阅读次数:
328
select min(call_log), a.mail_subject from (select mail_to,mail_subject from dw_user_deviler_201408 where log_date>=20140825 and mail_subject not ...
分类:
其他好文 时间:
2014-08-29 15:54:38
阅读次数:
177
select regexp_extract(a.col2,'(phonenum=\")(.*?)\"',2) user_device, regexp_extract(a.col13,'(imsicode=\")(.*?)\"',2) imsi, regexp_extract(a.col12,...
分类:
其他好文 时间:
2014-08-29 13:00:07
阅读次数:
205
项目背景: 本公司需要处理一份数据,这份数据有这样的特点,一行数据长度是1924个,一共有88个字段,且知道每个字段按顺序的长度。但是如果直接创建表的话也是行的,只不过写很复杂的正则表达式。而且效率方面可...
分类:
其他好文 时间:
2014-08-29 11:17:58
阅读次数:
286
由于 hive 与传统关系型数据库面对的业务场景及底层技术架构都有着很大差异,因此,传统数据库领域的一些技能放到 Hive 中可能已不再适用。关于 hive 的优化与原理、应用的文章,前面也陆陆续续的介绍了一些,但大...
分类:
其他好文 时间:
2014-08-29 05:13:27
阅读次数:
293
hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研...
分类:
其他好文 时间:
2014-08-28 21:18:16
阅读次数:
355
最近搭了个主从复制,中间出了点小问题,排查搞定,记录下来
1
环境:
虚拟机:
OS:
centos6.5
Linux host2 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux
服务器IP
192.168.18.66
192.168....
分类:
数据库 时间:
2014-08-28 18:08:15
阅读次数:
442
今天在centos6.3上搭建了hadoop+hive+spark系统,在运行/usr/local/spark-1.0.0/bin/spark-shell出现找不到hive相关的类,于是修改了spark-env.sh在spark_classpath里添加了hive的库路径exportSPARK_CLASSPATH=/usr/local/spark-1.0.0/lib_managed/jars/spark-assembly-1.0.0-..
分类:
其他好文 时间:
2014-08-28 15:00:30
阅读次数:
339
orderby sort by distribute by的优化...
分类:
其他好文 时间:
2014-08-28 13:19:09
阅读次数:
294