码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop spark-sql    ( 29965个结果
mahout版本兼容问题
运行mahout in action上的cluster示例时报错:Error: Found interface org.apache.hadoop.mapreduce.Counter, but class was expected 确定是版本问题,我的hadoop版本是2.4,但mahout目...
分类:其他好文   时间:2014-06-18 11:07:10    阅读次数:394
nutch,solr集成在hadoop上
nutch,solr集成在hadoop上 nutch是一个应用程序,在我的这个项目里主要是做爬虫用,爬取后的内容寄存在hdfs上,所以在hdfs结合模块现已结合上去了。 solr: 在eclipse新建动态页面项目,删去WebContent的一切内容。 在solr/dist下(或许/solr3.6....
分类:其他好文   时间:2014-06-18 10:30:02    阅读次数:223
Hadoop 2.2.0 在CentOS6.2 64位下的编译
最近在学习搭建Hadoop,直接从Apache官方网站直接下载最新版本Hadoop2.2,结果运行时发现提示 “libhadoop.so.1.0.0 which might have disabled stack guard” 的警告。Google了一下发现是因为 hadoop 2.2.0提供的是l...
分类:其他好文   时间:2014-06-18 10:10:52    阅读次数:553
世界杯中的大数据之道
让世界球迷翘首以盼的世界杯,在热情的桑巴舞和全世界球迷的欢呼中如期而至。在此期间,无论是资深球迷还是伪球迷,甚至是压根不看球的普通人,对于世界杯,都必然提及一二,这俨然成为了世界的节日,一个万众期待的狂欢party。随着移动互联的高度普及和发展,“社交足球”似乎踢得比世界杯还火热,各种渠道,各种工具...
分类:其他好文   时间:2014-06-17 23:30:11    阅读次数:290
Spark编程实现SQL查询的实例
1、Oracle中的SQL select count(1)from a_V_PWYZL_CUSTACCT_PSMIS t where not exists (select 1 from tb_show_multi_question q WHERE q.dqmp_rule_code = '仅比对系统有...
分类:数据库   时间:2014-06-17 23:29:32    阅读次数:309
Setup Spark source code environment
1. Install Java and set JAVA_HOME2. Install IntelliJ IDH and Scala plugin3. Download spark1.0.04. Generate a workspace for IDEA[shaochen@linux spark-1...
分类:其他好文   时间:2014-06-17 19:55:22    阅读次数:262
OpenStack部署到Hadoop的四种方案
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。尤其是OpenStack作为目前最流行的开源云版本如何部署在Hadoop上。...
分类:其他好文   时间:2014-06-17 19:00:58    阅读次数:304
Hadoop生态系统学习路线
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。 从2011年开始,中国进入大数据风起云...
分类:其他好文   时间:2014-06-17 16:44:25    阅读次数:310
hadoop streaming 编程
概况Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程。一个最简单的程序$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar-input myInputDirs...
分类:其他好文   时间:2014-06-17 15:33:54    阅读次数:330
海量数据存储
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:其他好文   时间:2014-06-17 15:02:18    阅读次数:194
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!