执行java调用scala 打包后的jar时候出现异常 /14 23:57:08 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that wor....
分类:
移动开发 时间:
2015-04-15 16:36:30
阅读次数:
579
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。
直接上代码:
importorg.apache.spark.SparkContext
importorg.apache.spark.sql.SQLContext
objectSparkSQL{
//定义两个caseclassA和B:
//A是用户的基本信息:包括客户号、***号和性别
//B是用户的交易信息..
分类:
数据库 时间:
2015-04-15 15:00:49
阅读次数:
565
公司有一个Spark on Yarn集群,基于CM5.2.0+CDH5.2.0搭建,Spark的版本是1.1.0.为了使用Spark1.2.0的一些特性,决定将集群版本升级到CM5.3.3+CDH5.3.3。之所以升级CM,是因为CM的版本号必须大于等于CDH的版本号。下面分成两个步骤介绍升级过程:CM升级和CDH升级。
1 CM升级过程介绍
1.1 admin用户登陆http://1...
分类:
其他好文 时间:
2015-04-15 13:38:14
阅读次数:
279
问题:将scala打成jar包,提供给java调用,但是java一直提示找不到类实现功能:利用spark查询hbase数据,然后提供给外部接口调用我的方式:spark查询Hbase用scala实现(已经完成),将scala打成jar 包提供给java调用一直提示找不到scala 中的主类
分类:
编程语言 时间:
2015-04-15 13:17:42
阅读次数:
208
Hadoop集群搭建好之后,解压Spark文件即可 Spark安装包 http://yunpan.cn/csPh8cf2n5WrT 提取码 1085 Spark命令-统计README.md文件行数,以及寻找所含关键字,以及文件第一行的相关命令 val lines = sc.textFile("REA...
分类:
其他好文 时间:
2015-04-14 09:51:10
阅读次数:
751
随机森林和GBTs都是集成学习算法,它们通过集成多棵决策树来实现强分类器。
集成学习方法就是基于其他的机器学习算法,并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。
随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。
随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮,...
分类:
其他好文 时间:
2015-04-13 22:59:00
阅读次数:
892
export MAVEN_OPTS="-Xmx4g -XX:MaxPermSize=1024M -XX:ReservedCodeCacheSize=1024m"mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.1 -Phive -Phive-thriftser...
分类:
其他好文 时间:
2015-04-13 22:25:25
阅读次数:
138
IT-培训基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析Hadoop2.0_YARN_Spark_Storm_Tez技术培训视频教程基于IBM Cognos Report studio技术的商业智能解决方案(广播分发报表、EVENT STUDIO)基于IBM Cog...
分类:
其他好文 时间:
2015-04-13 22:24:18
阅读次数:
392
INFO BlockManagerMaster: Registered BlockManagerException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/kafka/KafkaUtils...
分类:
其他好文 时间:
2015-04-13 18:12:53
阅读次数:
252