随着科技的发展,信息的收集也越来越easy,再加上摩尔定律,大的数据量处理也成为了可能。什么是大数据,或许你有几千个人的基本信息、或许你有数百条购物记录,但这都不不是大数据,大数据至少在千万的数据量上。 大数据有什么作用?其实数据中是包括各种规律的,互联网时代的数据以不在那么直观,再加上超大...
分类:
其他好文 时间:
2014-07-30 20:22:14
阅读次数:
227
敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路、工具与方法)【美】Russell Jurney(拉塞尔·朱尔尼) 著 冯文中 朱洪波 译ISBN 978-7-121-23619-82014年7月出版定价:49.00元 184页16开编辑推荐对大...
分类:
其他好文 时间:
2014-07-30 17:21:04
阅读次数:
253
Spark SQL 物理计划到 RDD 的计算过程实现。...
分类:
数据库 时间:
2014-07-29 22:08:02
阅读次数:
656
对于一直用Oracle的我,今天可是非常诧异,MySQL中同一个函数在不同数量级上的性能居然差距如此之大。 先看表ibmng(id,title,info) 唯一 id key索引title 先看看两条语句: select * from ibmng limit 1000000,10 sele...
分类:
数据库 时间:
2014-07-29 20:42:52
阅读次数:
269
LZ4算法又称为RealtimeCompressionAlgorithm,在操作系统(linux/freeBSD)、文件系统(OpenZFS)、大数据(Hadoop)、搜索引擎(Lucene/solr)、数据库(Hbase)……都可以看到它的身影,可以说是一个非常通用的算法。LZ4最突出的地方在于它的压缩/解压速度。基础知识理解Lucene中LZ4算..
分类:
其他好文 时间:
2014-07-29 15:24:30
阅读次数:
483
分组交换是指将大数据分割为一个个叫做包(Packet)的较小单位进行传输 的方法。这里所说的包,如同我们平常在邮局里见到的邮包。分组交换就是将大 数据分装为一个个这样的邮包交给对方。...
分类:
其他好文 时间:
2014-07-29 15:12:30
阅读次数:
233
随着出版物电子排版方式的普及,大部头出版物的排版,越来越多的应用在人们的工作中。例如,惠普公司的打印机销往世界各地几百个国家,打印机使用手册至少需要出版100多种语言,印出的手册摞起来有1人多高。另外,波音飞机和大众汽车等公司的产品装配手册和使用手册也都是如此,都是上千页甚至是上万页的大数据排版。对于这种大部头出版物的排版,传统的方法非常繁琐且容易出错。而采用XML和XSL的数据与排版格式分离的排版方式,使得排版变得非常简单。这种排版软件就是将出版物的数据放在XML文件中,而将排版格式用XSL文件进行描述,...
分类:
其他好文 时间:
2014-07-29 14:53:08
阅读次数:
191
Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。...
分类:
数据库 时间:
2014-07-29 14:46:18
阅读次数:
514
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:
数据库 时间:
2014-07-29 14:35:08
阅读次数:
308
摘要 : 百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。百度在大数据领域迈出一大步。在昨天的百度技术开放日上...
分类:
其他好文 时间:
2014-07-29 13:55:48
阅读次数:
402