MapReduce 是一个分布式计算框架,主要由两部分组成:编程模型和运行时环境. 其中,编程模型为用户提供了非常易用的编程接口,用户只需要像编写串行程序一样实现几个简单的函数即可实现一个分布式程序,而其他比较复杂的工作,如节点间的通信、节点失效、数据切分等,全部由MapReduce 运行时环境完成... ...
分类:
其他好文 时间:
2017-01-24 18:52:25
阅读次数:
629
镇场诗: 诚听如来语,顿舍世间名与利。愿做地藏徒,广演是经阎浮提。 愿尽吾所学,成就一良心博客。愿诸后来人,重现智慧清净体。——————————————————————————————————————————code: result: ———————————————————————————————— ...
分类:
编程语言 时间:
2017-01-15 10:42:10
阅读次数:
201
第一优化你的sql和索引; 第二加缓存,memcached,redis; 第三以上都做了后,还是慢,就做主从复制或主主复制,读写分离,可以在应用层做,效率高,也可以用三方工具,第三方工具推荐360的atlas,其它的要么效率不高,要么没人维护; 第四如果以上都做了还是慢,不要想着去做切分,mysql ...
分类:
数据库 时间:
2017-01-12 10:41:40
阅读次数:
197
今天,我们就先聊一下spark中的DAG以及RDD的相关的内容 1.DAG:有向无环图:有方向,无闭环,代表着数据的流向,这个DAG的边界则是Action方法的执行 2.如何将DAG切分stage,stage切分的依据:有宽依赖的时候要进行切分(shuffle的时候, 也就是数据有网络的传递的时候) ...
分类:
其他好文 时间:
2017-01-11 08:07:13
阅读次数:
311
HBase 的存储结构 2016-10-17 杜亦舒 HBase 中的表常常是超级大表,这么大的表,在 HBase 中是如何存储的呢?HBase 会对表按行进行切分,划分为多个区域块儿,每个块儿名为 HRegionHBase 是集群结构,会把这些块儿分散存储到多个服务器中,每个服务器名为HRegio ...
分类:
其他好文 时间:
2017-01-08 03:49:47
阅读次数:
200
正则表达式: search(a);//查询a的位置 substring(2,5)//获取到2到4位 chartAt(3);//获取到第3位 split('-');//以-切分 (1) RegExp对象 JS写法: new RegExp("a","i");//i会忽略大小写,找到a perl写法: / ...
分类:
编程语言 时间:
2017-01-06 22:17:25
阅读次数:
254
第1章 引言 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。 水平切分数据库:可以降 ...
分类:
数据库 时间:
2017-01-04 18:56:46
阅读次数:
440
(上接第三章) 3.4 Scikit-Learn与回归树 3.4.1 回归算法原理 在预测中,CART使用最小剩余方差(squared Residuals Minimization)来判断回归时的最优划分,这个准则期望划分之后的子树与样本点的误差方差最小。这样决策树将数据集切分成很多子模型数据,然后 ...
分类:
编程语言 时间:
2017-01-04 18:34:00
阅读次数:
577
一,软件准备 coreseek4.1 (包含coreseek测试版和mmseg最新版本,以及测试数据包【内置中文分词与搜索、单字切分、mysql数据源、python数据源、RT实时索引等测试配置】) Mysql源码包 (必须选择与你已安装mysql的版本一致) 为了避免安装中出现依赖包缺失,你需要打 ...
分类:
数据库 时间:
2017-01-03 22:37:21
阅读次数:
508
一、AWK简介 和GREP相比,AWK相对陌生一些,但它的功能更强大,处理起来更灵活,适合处理基于列结构化的文本数据,因为它可以对行数据进行细致的处理,如按特定字符将文本切分成多个字段,进而对各个字段进行下一步的片。它还支持C语法,可以当成脚本语言来使用。 二、基本语法 awk 用法:awk ’ p ...
分类:
系统相关 时间:
2016-12-26 00:29:34
阅读次数:
218