Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget
http://archive.ics.uci.edu/ml/databas...
分类:
其他好文 时间:
2014-05-04 12:34:58
阅读次数:
340
数组PHP
中的数组实际上是一个有序映射。映射是一种把values关联到keys的类型。此类型在很多方面做了优化,因此可以把它当成真正的数组,或列表(向量),散列表(是映射的一种实现),字典,集合,栈,队列以及更多可能性。数组元素的值也可以是另一个数组。树形结构和多维数组也是允许的。解释这些结构超出...
分类:
Web程序 时间:
2014-05-04 12:28:33
阅读次数:
445
使用hbase的目的是为了海量数据的随机读写,但是在实际使用中却发现针对随机读的优化和gc是一个很大的问题,而且hbase的数据是存储在Hdfs,而Hdfs是面向流失数据访问进行设计的,就难免带来效率的下降。下面介绍一下Facebook
Message系统在HBase online storage场...
分类:
其他好文 时间:
2014-05-04 11:08:29
阅读次数:
337
之前在写MR
job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:
其他好文 时间:
2014-05-04 10:54:29
阅读次数:
427
软件环境: 虚拟机:VMware Workstation 10
操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1
Hadoop下载地址:http://mirrors.cnnic.cn/apa...
分类:
其他好文 时间:
2014-05-04 10:43:51
阅读次数:
370
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
呵呵吧。
前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:
其他好文 时间:
2014-05-03 21:51:45
阅读次数:
344
dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
分类:
其他好文 时间:
2014-05-03 21:37:44
阅读次数:
308
上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。
1. 数据处理
目标: 获取信息, 去除噪音
机器学习技术点: 选择对点击概率分布 预估足够多样本
解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测
算法:a. 百度...
分类:
其他好文 时间:
2014-05-03 21:12:36
阅读次数:
378
大部分人对于网站都不懂如何去分析;网站分析有什么好处的?
可以帮助我们看网站存在一个什么阶段,可以帮助我们看出网站有没有问题;分析网站是作为一名优化人员必备的技术,所以我们必须要懂得如何去分析网站;接下来由泡馆史明星来教大家如何对网站进行详细分析:
A.站内分析
1.标题以及描述:分为“、栏目页、导航页、内容页、产品页”这些都是需要我们关系的,如果标题和描述写不好会直接影响关键词...
分类:
Web程序 时间:
2014-05-03 21:10:08
阅读次数:
271
一、概述:
Yarn调度器有许多实现,如Fifo, Capacity和Fair schedulers等。与其同时,正在进行一些优化措施来提高调度器在不同负载和工作场景下的性能。每个调度器都有自己的特性,调度决策受许多因素影响,如公平行、计算能力保证和资源的可靠性等。在部署一个调度算法到生产集群之前,评估一个调度算法是非常重要的,不幸的是,评估一个调度算法是不那么容易的,评估一个真正的集群是非常耗...
分类:
其他好文 时间:
2014-05-03 21:00:00
阅读次数:
443