Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget
http://archive.ics.uci.edu/ml/databas...
分类:
其他好文 时间:
2014-05-04 12:34:58
阅读次数:
340
awk 处理数据时,它会自动从数据文件中一次读取一条记录,并会将该记录切分成一个个的字段;程序中可使用
$1, $2,... 直接取得各个字段的内容。这个特色让使用者易于用 awk 编写 reformatter 来改变数据格式。范例:以数据文件 emp.dat
为例,计算每人应发工资并打印报表。.....
分类:
其他好文 时间:
2014-05-04 12:11:43
阅读次数:
279
目录:一、解决方案一:报表数据访问使用推模型二、解决方案二:记录选定公式运行时自定义三、解决方案三:将参数合并到记录选定公式----------------------------------解决方案一:报表数据访问使用推模型需要开发人员编写代码以连接到数据库,执行
SQL 命令以创建与报表中的字段...
分类:
其他好文 时间:
2014-05-04 11:43:26
阅读次数:
284
本节将示范一个统计上班到达时间及迟到次数的程序。 这程序每日被执行时将读入两个数据文件: *
员工当日到班时间的数据文件 ( 如下列的 arr.dat ) *存放员工当月迟到累计次数的文件
当程序执行执完毕后将更新第二个数据文件的数据(迟到次数),并打印当日的报表。这程序将分成下...
分类:
其他好文 时间:
2014-05-04 11:35:46
阅读次数:
394
使用hbase的目的是为了海量数据的随机读写,但是在实际使用中却发现针对随机读的优化和gc是一个很大的问题,而且hbase的数据是存储在Hdfs,而Hdfs是面向流失数据访问进行设计的,就难免带来效率的下降。下面介绍一下Facebook
Message系统在HBase online storage场...
分类:
其他好文 时间:
2014-05-04 11:08:29
阅读次数:
337
之前在写MR
job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:
其他好文 时间:
2014-05-04 10:54:29
阅读次数:
427
软件环境: 虚拟机:VMware Workstation 10
操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1
Hadoop下载地址:http://mirrors.cnnic.cn/apa...
分类:
其他好文 时间:
2014-05-04 10:43:51
阅读次数:
370
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
呵呵吧。
前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:
其他好文 时间:
2014-05-03 21:51:45
阅读次数:
344
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371
dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
分类:
其他好文 时间:
2014-05-03 21:37:44
阅读次数:
308