因为工作中要用到Scala了,本来前面自己还在学习Storm的,没有办法,先把Scala和Spark的这些内容学完在回去看Storm吧! 既然我们要学习Scala,那么我们不禁的要问了,什么是Scala? Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Sc ...
分类:
其他好文 时间:
2016-12-21 02:49:57
阅读次数:
138
使用scala开发spark入门总结 一、spark简单介绍 关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍。推荐简单介绍连接:http://blog.jobbole.com/89446/ 1、 spark是什么? Spark是UC Berkeley AMP lab ( ...
分类:
其他好文 时间:
2016-12-19 18:31:58
阅读次数:
173
并发 并发在单核和多核 CPU 上都存在, 对于单核 CPU,通过轮训时间片的方式实现并发. 线程 线程对象 利用Thread对象, 有两种方式来创建并发程序: 线程的创建 有两种方式创建线程: 两种方法的优缺点? Runnable 总体来说更好一点 线程的基本状态 线程有如下状态: WAITING ...
分类:
编程语言 时间:
2016-12-08 02:14:28
阅读次数:
337
1. 在生产环境下,很多文件是GBK编码格式的,而SPARK 常用的textFile方法默认是写死了读UTF-8格式的文件,其他格式文件会显示乱码 用如下代码实现读取GBK文件的方法 import org.apache.hadoop.io.{LongWritable, Text}import org ...
分类:
其他好文 时间:
2016-12-07 02:17:16
阅读次数:
284
Description One of the more popular activities in San Antonio is to enjoy margaritas in the park along the river know as the River Walk. Margaritas ma ...
分类:
其他好文 时间:
2016-12-04 19:49:36
阅读次数:
198
Hadoop使用数据复制来实现容错性(I/O高) Spark使用RDD数据存储模型来实现容错性。 RDD是只读的、分区记录的集合。如果一个RDD的一个分区丢失,RDD含有如何重建这个分区的相关信息。这就避免了使用数据复制来保证容错性的要求,从而减少了对磁盘的访问。通过RDD,后续步骤如果需要相同数据 ...
分类:
其他好文 时间:
2016-12-02 19:29:42
阅读次数:
467
http://blog.csdn.net/lsshlsw/article/details/48975771 https://www.douban.com/note/499691663/ http://blog.csdn.net/kejiaming/article/details/52084898 h ...
分类:
其他好文 时间:
2016-12-02 03:02:45
阅读次数:
153
在即将过去的2016年,大数据技术在不断的发展,新霸哥预计到明年很多的主流公司会采用大数据和物联网。新霸哥发现自助式数据分析的普及,加上云计算和Hadoop的广泛采用,目前正在整个行业带来变化,越来越多的公司会抓住这一形势,或者无视变化、因此面临险境。实际上,工具仍在出现,而Hadoop平台承诺的还 ...
分类:
其他好文 时间:
2016-12-02 01:42:23
阅读次数:
253
在之前的文章中,我介绍了分库分表的几种表现形式和玩法,也重点介绍了垂直分库所带来的问题和解决方法。本篇中,我们将继续聊聊水平分库分表的一些技巧。 分片技术的由来 关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量、连接数、处理能力等都很有限,数据库本身的“有状态性”导致了它并不像Web和应用服务 ...
分类:
其他好文 时间:
2016-11-29 07:03:29
阅读次数:
232
流失预测模型的应用 一、概述 对于一个互联网企业来说,用户流失是一个不可避免的问题。一定范围内的用户流失率是可以被接受的,因为并不是所有的用户都是我们的目标用户。但是当用户的流失率超出我们的预期时,就应该思考用户为什么会离开?有没有办法预测出具有流失倾向的用户?并通过针对性的挽留工作避免其流失。 本 ...
分类:
其他好文 时间:
2016-11-28 07:58:28
阅读次数:
180