Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。大数据时代的精髓技术在于Hadoop、Yarn、Spark,是大数据时代公司和个人必须掌握和使用的核心内容。Hadoop、Yarn、Spark是Yahoo!、阿里淘宝...
分类:
移动开发 时间:
2014-09-13 17:03:45
阅读次数:
328
SparkSql实际运用:在spark0.9.x中不支持jdbc操作,spark1.1会加入jdbc支持
版本说明:spark-1.1.0+scala-2.10.4+hive-0.12.0
spark1.1的发布正式版:2014/9/11
1、增加start-thriftserver.sh 服务启动,通过jdbc/odbc直接连接
bin/start-thriftser...
分类:
数据库 时间:
2014-09-13 09:25:24
阅读次数:
329
最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。...
分类:
其他好文 时间:
2014-09-13 00:51:24
阅读次数:
420
http://poj.org/problem?id=1789DescriptionAdvanced Cargo Movement, Ltd. uses trucks of different types. Some trucks are used for vegetable delivery, ot...
分类:
其他好文 时间:
2014-09-12 23:28:14
阅读次数:
232
Q1:docker成熟度如何?Docker是2013年和2014年最火爆的云计算开源项目;Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已经使用Docker全面全面升级了自己的BAE,升级后的BAE无论是性能还是业务表现均超出预期;Q2:Docker与云计算..
分类:
其他好文 时间:
2014-09-12 15:27:54
阅读次数:
198
对于90%以上想学习Spark的人而言,如何构建Spark集群是其最大的难点之一,为了解决大家构建Spark集群的一切困难,家林把Spark集群的构建分为了四个步骤,从零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的Spark集群。从零起步,构建Spark集群经典四部曲:第一步..
分类:
其他好文 时间:
2014-09-12 15:25:14
阅读次数:
240
第二步:安装每个软件安装Vmware虚拟机点击“VMware-workstation-full-9.0.2-1031769”可执行文件,如下图所示:点击“Next”进入下一步:我们选择“Custom”进入下一步;2.选择所有的功能,如下所示:我们选择“Custom”进入下一步;2.选择所有的功能,如下所示:点击”Next”..
分类:
其他好文 时间:
2014-09-12 15:22:04
阅读次数:
269
1、运行spark报出如下错误: org.apache.hadoop.security.AccessControlException: Permission denied: 解决方法,添加用户:如下 sudo -u hdfs hadoop fs -mkdir /user/stat sudo -u hdfs hadoop fs -chown roo...
分类:
其他好文 时间:
2014-09-12 12:08:13
阅读次数:
205
Q1:docker成熟度如何? ???????? Docker是2013年和2014年最火爆的云计算开源项目; ???????? Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已经使...
分类:
其他好文 时间:
2014-09-12 12:08:03
阅读次数:
392