Hive文件格式
1、 TextFile
默认文件格式
数据不做压缩,磁盘开销大,数据解析开销大,可以结合Gzip、Bzip2使用(系统自动检测,执行查询时自动解压)
数据不会被Hive切分,所以无法对数据进行并行操作
创建命令:
2、 SequenceFile
是Hadoop API提供的一种二进制文件支持
使用方便、可分割、可压缩的特点
支持三种压缩方式...
分类:
其他好文 时间:
2015-01-24 15:53:06
阅读次数:
183
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:
编程语言 时间:
2015-01-17 15:11:28
阅读次数:
183
目录(?)[-]一设计理念空间换时间 多级缓存静态化 索引并行与分布式计算 任务切分分而治之MR 多进程多线程并行执行MPP多维度的可用 负载均衡容灾备份 读写分离 依赖关系 监控伸缩 拆分 无状态优化资源利用 系统容量有限 原子操作与并发控制 基于逻辑的不同采取不一样的策略 容错隔离 资源释放二静...
分类:
其他好文 时间:
2015-01-15 10:53:45
阅读次数:
254
slice() 方法可从已有的数组中返回选定的元素。
语法
arrayObject.slice(start,end)
start 必需。规定从何处开始选取。如果是负数,那么它规定从数组尾部开始算起的位置。
也就是说,-1 指最后一个元素,-2 指倒数第二个元素,以此类推。
end 可选。规定从何处结束选取。该参数是数组片断结束处的数组下标。如果没有指定该参数,
那么切分的数组包含从 ...
分类:
编程语言 时间:
2015-01-14 09:49:05
阅读次数:
490
背景: 数据库:SQLSERVER 2008 原始数据表(TestTable)如下,需要统计每个数字出现的个数,不希望在程序中全部取出后逐个切分相加,所以想到用SQL实现切分统计 colunname02;03;040101;02;0302;0302;03;040102;0401;0301;0202;...
分类:
数据库 时间:
2015-01-08 17:23:46
阅读次数:
214
数据库水平分区,相对垂直分区,需要做的工作和事情要多一些,但是对一些行数据特别多的表,非常有必要。
在我在BDC项目中的不断优化中,总结了下面几种常用的数据库水平切分方法:
1. 表分区;
2. 表拆分;
3. 表分库;
表分区
表分区是ORACLE和新版本的MYSQL数据库中,一个非常强大的功能。非常值得学习。
但是表分区如果用不好,性能反倒会下降。我记得我们的...
分类:
数据库 时间:
2015-01-06 20:13:22
阅读次数:
267
.9.png介绍说明
.9.PNG是安卓开发里面的一种特殊的图片,这种格式的图片通过ADT自带的编辑工具生成,使用九宫格切分的方法,使图片支持在android 环境下的自适应展示。
1.允许开发人员定义可扩展区域,当需要延伸图片以填充比图片本身更大区域时,可扩展区的内容被延展
2.允许开发人员定义内容显示区,用于显示文字或...
分类:
移动开发 时间:
2015-01-06 18:09:23
阅读次数:
244
我当年负责一个项目(中国电信BDC项目),购买的数据库硬件是P590小机组。通过压力测试后系统上线后,业务迅猛发展。小机的内存、CPU长期在98%上下徘徊。硬件虽然好,但是也扛不住业务的狂飙,应用服务器横向扩展相对比较容易,而数据库的升级相当的昂贵。
怎么办?当然首先是一堆的参数的调优和系统的调优。但是指标下降的不是特别理想;
怎么办?对系统进行合理拆分吧。
数据库拆...
分类:
数据库 时间:
2015-01-06 12:00:37
阅读次数:
230
数据切片1.前言随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题。对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库,可以降...
分类:
其他好文 时间:
2015-01-06 11:16:21
阅读次数:
13470
视频切分与合并在应用场景中很常见,如视频剪辑,去广告等。
本文以MP4文件为目标,对其进行切分合并
一. VLC做前期处理
如果需要加亮,锐化,对比度,可以使用VLC来实现,
cvlc nikita.mp4 --sout="#transcode{vfilter={adjust{}:sharpen{sigma=0.12}: deinterlace{mode=mean}},vcodec=h...
分类:
其他好文 时间:
2015-01-05 13:03:06
阅读次数:
400