Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
Java线程:概念与原理一、操作系统中线程和进程的概念现在的操作系统是多任务操作系统。多线程是实现多任务的一种方式。进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程中可以启动多个线程。比如在Windows系统中,一个运行的exe就是一个进程。线程是指进程中的一个执行流程...
分类:
编程语言 时间:
2014-07-26 17:09:51
阅读次数:
325
stage执行顺序stage {'zero': } ->stage {'first': } ->stage {'openstack-custom-repo': } ->stage {'netconfig': } ->stage {'corosync_setup': } ->stage {'opens...
分类:
其他好文 时间:
2014-07-24 22:21:42
阅读次数:
366
首先声明一下,这篇文章是我的原创,但是,这些数据不是我总结出来的,大家可以搜索下“百度工程师HDK”,这些数据是他提供的,我只是给一个总结,因为他那篇文章很长,我这里提炼了几点要点。
要了解函数的性能,首先要知道函数的执行流程,它首先通过scanning被转化为语言片段(tokens),然后通过parsing为简单有意义的表达式,然后compile(编译)为Opcode,最后exec...
分类:
Web程序 时间:
2014-07-24 10:34:51
阅读次数:
267
本文编译方法所支持的hadoop环境是Hadoop-2.2.0,YARN是2.2.0,JAVA版本为1.8.0_11,操作系统Ubuntu14.04Spark1.0.0 源码下载地址:http://mirror.bit.edu.cn/apache/spark/spark-1.0.0/spark-1....
分类:
其他好文 时间:
2014-07-24 09:59:23
阅读次数:
448
进到8088页面后,怎么看不到mapreudce的执行状态,有哪里需要配置的解决办法:在$HADOOP_HOME/conf/mapred-site.xml 在原来的配置文件基础之上添加: mapreduce.framework.name yarn mapre...
分类:
其他好文 时间:
2014-07-22 22:36:15
阅读次数:
211
1.1 Spark交互式分析
运行Spark脚本前,启动Hadoop的HDFS和YARN。Spark的shell提供
了简单方式去识别API,同样也有一个强大的工具去交互式地分析数据。两种语言有这样的交换能力,分别是Scala 和 Python。下面将演示如何使用Python来分析数据文件。
进入Spark安装主目录,输入下面的命令,python命令行模式将会启动。
./bin/pysp...
分类:
其他好文 时间:
2014-07-22 00:29:38
阅读次数:
239
把CDH搭建起来了,跑其中的例子程序word-count。在控制台界面一直显示map 0% ?reduce 0% , 通过web页面查看job的状态一直是run,但是map没有执行。感觉是是资源的分配有问题。接着查看了任务的日志。 2014-07-04...
分类:
其他好文 时间:
2014-07-21 10:27:54
阅读次数:
822
配置建议: 1. ????In MR1, the mapred.tasktracker.map.tasks.maximum and mapred.tasktracker.reduce.tasks.maximum properties dictated how many map and reduce slots each TaskTracker had. ????T...
分类:
其他好文 时间:
2014-07-21 10:14:00
阅读次数:
279
本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:(1)ResourceManager HA在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Clouder...
分类:
其他好文 时间:
2014-07-19 00:28:52
阅读次数:
426