从官网来copy过来的几种模式描述:Scala/JavaPythonMeaningSaveMode.ErrorIfExists(default)"error"(default)When saving a DataFrame to a data source, if data already exis...
分类:
数据库 时间:
2015-05-18 16:09:17
阅读次数:
181
val df = sqlContext.load("/opt/modules/spark1.3.1/examples/src/main/resources/people.json","json")df.select("name","age").save("/opt/test/namesAndAges...
分类:
数据库 时间:
2015-05-18 16:07:42
阅读次数:
355
What is RDD?
A Resilient Distributed Dataset(RDD),分布式弹性数据集,是Spark上的一个核心抽象
表示用于并行计算的,不可修改的,对数据集合进行分片的数据结构
在Spark上,针对各种各样的计算场景存在着各种各种的RDD,这些RDD拥有一些共同的操作,例如map,filter,persist等,就好像RDDs都是一个总RDD的子类一样,拥有所有...
分类:
其他好文 时间:
2015-05-17 13:47:42
阅读次数:
172
介绍redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及...
分类:
系统相关 时间:
2015-05-16 01:23:04
阅读次数:
262
通用机器学习MLlib in Apache Spark—Spark中的分布式机器学习程序库Mahout—分布式的机器学习库Stanford Classifier—斯坦福大学的分类器Weka—Weka是数据挖掘方面的机器学习算法集。ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。数据分析...
分类:
其他好文 时间:
2015-05-15 19:20:34
阅读次数:
241
使用spark 1.3.1scala> import sqlContext.createSchemaRdd结果报错::29: error: value createSchemaRdd is not a member of org.apache.spark.sql.SQLContext i...
分类:
其他好文 时间:
2015-05-15 17:26:14
阅读次数:
158
首先介绍一下Shark的概念
Shark简单的说就是Spark上的Hive,其底层依赖于Hive引擎的
但是在Spark平台上,Shark的解析速度是Hive的几多倍
它就是Hive在Spark上的体现,并且是升级版,一个强大的数据仓库,并且是兼容Hive语法的下面给出一张来自网上的Shark构架图从图上可以看出,Spark的最底层大部分还是基于HDFS的,Shark中的数据信息等也是对应着H...
分类:
数据库 时间:
2015-05-15 09:11:25
阅读次数:
314
以一个简单的WordCount代码为例sc.textFile("hdfs://...").flatMap(_.split(" ")).map(_,1).reduceByKey(_+_).map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1)).saveAsTextFile("hdfs://....")以上代码的作用是读取指定位置的文件,...
分类:
其他好文 时间:
2015-05-15 09:08:38
阅读次数:
304
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:
其他好文 时间:
2015-05-14 16:43:27
阅读次数:
350
摘自:http://www.dataguru.cn/article-4696-1.htmlLinux发展至今已有20余年,从青涩的毛头小伙成长为博大精深的开源利器,从个人站长的宠儿成长为企业级应用的首选操作系统平台,其高度稳定性和功能丰富强大,为广大工程师和业界人士所赞许。20多年的Linux发展史也是一部高歌..
分类:
系统相关 时间:
2015-05-14 14:29:33
阅读次数:
149