搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

集体智慧编程中相关章节对应论文数

准备开题报告了，先要熟悉一下领域范围，《集体智慧编程》参考一下论点。简单的思路是看一下哪个话题最热门，用google学术来衡量一下论文数，虽然不够精确但是足以反应一点什么。当然是选择最近比较热门的，同时参考一下国内的论文数目情况。关键字总的 2014 国内总数 2014 推荐 2,480,000 ...

分类：其他好文时间：2014-06-05 01:59:36 阅读次数：241

/bin/bash: line 0: fg: no job control一般解决方法

测试版本：CDH5.0,（Hadoop2.3）在使用windows调用Hadoop yarn平台的时候，一般都会遇到如下的错误：2014-05-28 17:32:19,761 WARN org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Exception from container-launch with co...

分类：其他好文时间：2014-06-03 06:26:17 阅读次数：277

Hadoop与HBase中遇到的问题(续)java.io.IOException: Non-increasing Bloom keys异常

在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常: java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...

分类：编程语言时间：2014-06-03 05:55:44 阅读次数：359

论文战略

最近论文实验进行的非常的不顺利，一方面是实验聚类的效果十分的差，另一方面是做大数据的实验对计算机的性能要求很高，非常的耗费内存，每当矩阵的维度大于3000的时候，整个计算机就像中了魔法似的，像蜗牛一样慢。这样用小数据做实验效果非常的差，用大数据做实验计算机又跑不动，搞的自己很愚昧，不知道是自己数据集的问题，还是聚类算法的问题。...

分类：其他好文时间：2014-06-03 05:54:21 阅读次数：263

Spark开源学习模块

Spark开源的各模块组成结构...

分类：其他好文时间：2014-06-03 04:07:29 阅读次数：263

浅谈hadoop中mapreduce的文件分发

DistributedCache 是一个提供给Map/Reduce框架的工具，用来缓存文件（text, archives, jars and so on）...

分类：其他好文时间：2014-06-03 02:18:37 阅读次数：332

Hbase在数据统计中的应用心得

1. 数据统计的需求互联网上对于数据的统计，一个重要的应用就是对网站站点数据的统计，例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。网站站点统计工具无外乎有以下一些功能： 1）网站流量统计：包括PV、UV、IP等指标，这些统计指标可以以趋势图的形式展示出来，如最近一周、最近一个月等。 2）IP来源信息统计：记录各个来源IP下的访问PV...

分类：其他好文时间：2014-06-03 01:33:36 阅读次数：226

Spark 1.0.0版本发布

前言今天Spark终于跨出了里程碑的一步，1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性，并且提供了更好的API支持。Spark SQL作为一个新的组件加入，支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强，对Spark和Python的接口也变得更稳定。以下是几个主要的改进点...

分类：其他好文时间：2014-06-03 00:43:41 阅读次数：269

Hadoop动态添加/删除节点（datanode和tacktracker）

总的来说，正确的做法是优先通过配置文件，再在具体机器上进行相应进程的启动/停止操作。网上一些资料说在调整配置文件的时候，优先使用主机名而不是IP进行配置。总的来说添加/删除DataNode和TaskTracker的方法非常相似，只是操作的配置项和使用的命令有微小差异。 1. DataNode 1.0 配置文件在namenode下修改配置文件conf/mapred-site.xml。关键参数dfs.hosts和dfs.hosts.exclude。注意：不同hado...

分类：其他好文时间：2014-06-01 10:45:08 阅读次数：340

Hadoop YARN资源隔离技术

YARN对内存资源和CPU资源采用了不同的资源隔离方案。对于内存资源，它是一种限制性资源，它的量的大小直接决定应用程序的死活，因为应用程序到达内存限制，会发生OOM，就会被杀死。CPU资源一般用Cgroups进行资源控制，Cgroups控制资源测试可以参见这篇博文Cgroups控制cpu，内存，io...

分类：其他好文时间：2014-05-31 18:47:58 阅读次数：264

共29965条上一页 1 ... 2954 2955 2956 2957 2958 ... 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)