搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:26:48 阅读次数：538

Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 13:12:51 阅读次数：394

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）

声明： 1）本文由我bitpeach原创撰写，转载时请注明出处，侵权必究。2）本小实验工作环境为Windows系统下的百度云（联网），和Ubuntu系统的hadoop1-2-1（自己提前配好）。如不清楚配置可看《Hadoop之词频统计小实验初步配置》3）本文由于过长，无法一次性上传。其相邻相关的博....

分类：其他好文时间：2014-05-30 12:45:25 阅读次数：563

hadoop wordcount程序缺陷

在wordcount 程序的main函数中，没有读取运行环境中的各种参数的值，全靠hadoop系统的默认参数跑起来，这样做是有风险的，最突出的就是OOM错误。自己在刚刚学习hadoop编程时，就是模仿wordcount程序编写。在数据量很小，作为demo程序跑，不会有什么问题，但当数据量激增，变成...

分类：其他好文时间：2014-05-30 08:32:02 阅读次数：176

Apache Storm源码阅读笔记

自从建了Spark交流的QQ群之后，热情加入的同学不少，大家不仅对Spark很热衷对于Storm也是充满好奇。大家都提到一个问题就是有关storm内部实现机理的资料比较少,理解起来非常费劲。尽管自己也陆续对storm的源码走读发表了一些博文，当时写的时候比较匆忙，有时候衔接的不是太好，此番做了一些整...

分类：其他好文时间：2014-05-30 07:25:09 阅读次数：286

编译hadoop-eclipse-plugins-1.2.1插件步骤

a. 在hadoop解压目录下，找到src\contrib\eclipse-plugin\build.xml，增加如下几行： b. 在build.xml增加如下：c. 在build.xml，修改如下：d. 找到src\contrib\build-contrib....

分类：系统相关时间：2014-05-29 20:48:43 阅读次数：439

90%的商界领袖视大数据为企业决策关键因素

在过去的几年中，雪崩的数据，包括结构化和非结构化数据，推动组织到了一个突破点，大数据时代俨然已经到了。在大数据时代，CIO和IT主管知道，他们能否取得成功，严重依赖于如何挖掘到大数据，并把它充分利用。然而，目前许多高管并不知道如何最好地利用大数据以提高企业决策能力。据凯捷最近发布的关于“决定因素：大...

分类：其他好文时间：2014-05-29 19:01:33 阅读次数：216

【spark系列3】spark开发简单指南

分布式数据集创建之textFile 文本文件的RDDs能够通过SparkContext的textFile方法创建，该方法接受文件的URI地址（或者机器上的文件本地路径，或者一个hdfs://, sdn://,kfs://,其他URI).这里是一个调用样例：scala> val distFile...

分类：其他好文时间：2014-05-29 18:58:27 阅读次数：429

Hadoop中两表JOIN的处理方法

http://dongxicheng.org/mapreduce/hadoop-join-two-tables/http://dongxicheng.org/mapreduce/run-hadoop-job-problems/http://dongxicheng.org/mapreduce/hdfs...

分类：其他好文时间：2014-05-29 12:27:09 阅读次数：260

云和端之我见

顾名思义。。。云和端就是我们现在很流行讲的云计算、移动开发、大数据处理等。。我们做IT的一般都要先了解这个架构。。而对于架构这个东西，有可能是你要实现一些特定功能的软件架构，也可能是你想要实现特定系统功能的架构。而我讨论的是云和端的架构。首先，云可以理解是我们的服务器系统。或者b/s架构的serve...

分类：其他好文时间：2014-05-29 08:09:38 阅读次数：301