搜索关键字：大数据 spark，搜索到18881个结果！码迷,mamicode.com！

社会化海量数据采集爬虫框架搭建

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢？1、打开浏...

分类：其他好文时间：2014-07-10 12:32:08 阅读次数：237

数据挖掘启程经历

2014年初经过深思熟虑，确定方向数据挖掘，作为今后工作生涯的追随领域。 3月份开始看机器学习的课程，到了4月底，参加阿里巴巴的大数据竞赛，便把课程学习给落下了—— 一大遗憾。比赛的成绩可想而知，由于知识储备不够，况且还是单干，只能说还行，从七千个队伍到前五百名内，再从三百名到一百多名，然后遇到....

分类：其他好文时间：2014-07-10 00:35:54 阅读次数：183

Apache Spark源码走读之16 -- spark repl实现详解

之所以对spark shell的内部实现产生兴趣全部缘于好奇代码的编译加载过程，scala是需要编译才能执行的语言，但提供的scala repl可以实现代码的实时交互式执行，这是为什么呢？既然scala已经提供了repl，为什么spark还要自己单独搞一套spark repl，这其中的缘由到底何在？...

分类：其他好文时间：2014-07-07 21:40:04 阅读次数：367

Apache Spark源码走读之13 -- hiveql on spark实现详解

欢迎转载，转载请注明出处，徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块，更为引人注意的是对hive中的hiveql也提供了良好的支持，作为一个源码分析控，了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop defini...

分类：其他好文时间：2014-07-07 14:45:58 阅读次数：224

Apache Spark源码走读之4 -- DStream实时流数据处理

欢迎转载，转载请注明出处，徽沪一郎。Spark Streaming能够对流数据进行近乎实时的速度进行数据处理。采用了不同于一般的流式数据处理模型，该模型使得Spark Streaming有非常高的处理速度，与storm相比拥有更高的吞能力。本篇简要分析Spark Streaming的处理模型，Spa...

分类：其他好文时间：2014-07-07 14:44:43 阅读次数：213

Apache Spark源码走读之5 -- DStream处理的容错性分析

欢迎转载，转载请注明出处，徽沪一郎，谢谢。在流数据的处理过程中，为了保证处理结果的可信度(不能多算，也不能漏算)，需要做到对所有的输入数据有且仅有一次处理。在Spark Streaming的处理机制中，不能多算，比较容易理解。那么它又是如何作到即使数据处理结点被重启，在重启之后这些数据也会被再次处理...

分类：其他好文时间：2014-07-07 14:36:48 阅读次数：275

尖峰7月线上技术分享--Hadoop、MySQL

7月2号晚20:30-22:30 东大博士Dasight分享主题《大数据与Hadoop漫谈》 7月5号晚20:30-22:30 原支付宝MySQL首席DBA分享主题《MySQL发展趋势,MySQL各个分支介绍》、《MySQL 5.6版本特性介绍及如何从MySQL 5.5向MySQL 5.6》 7月10号晚20:30-22:30 东大博士Dasight分享主题《Hadoop与Nosql技术的适用性分析》 7月12号晚20:30-22:30 原支付宝MySQL首席DBA分享主题《1000+MySQ...

分类：数据库时间：2014-06-30 08:40:53 阅读次数：315

HBase的伪分布模式安装

HBase是依赖Hadoop的数据存储系统，可以实现大数据(过亿条记录)的存储，进行并行化处理。在特定的场景下HBase有自己的用武之地。下面讲述如何进行伪分布模式安装1.设置环境变量我使用的HBase版本是hbase-0.94.7-security.tar.gz，安装在机器hadoop0的/usr...

分类：其他好文时间：2014-06-28 09:46:59 阅读次数：266

C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 大数据支持分表优化

公司的短信平台，数据量越来越大了，需要对数据进行一些优化，下面是拆分后的数据库量参考。新开发的软件模块，必须支持分表，拆表的功能一个数据表里，不适合保存1000万以上的记录新开发的业务模块，能分表的全分表，否则，将来我们无法用其他小型数据库，例如mysql 现在系统的短信已经进行了拆表接着打算把日....

分类：Web程序时间：2014-06-27 23:09:12 阅读次数：309

STL之容器适配器priority_queue的实现框架

在前面的文章STL之heap相关操作算法中介绍了堆的相关操作算法，由于堆的注意主要作用是用于排序，我们也知道堆排序的时间复杂度为o(nlogn)，是一种不稳定的排序算法，利用堆这一数据结构，我们可以很快第获取一个大数据中最大（或最小）的k个数。同时，上篇文章中，也提出了相关heap算法的一些问题...

分类：其他好文时间：2014-06-27 08:16:59 阅读次数：171

共18881条上一页 1 ... 1855 1856 1857 1858 1859 ... 1889 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)