随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏...
分类:
其他好文 时间:
2014-07-10 12:32:08
阅读次数:
237
HBase是依赖Hadoop的数据存储系统,可以实现大数据(过亿条记录)的存储,进行并行化处理。在特定的场景下HBase有自己的用武之地。下面讲述如何进行伪分布模式安装1.设置环境变量我使用的HBase版本是hbase-0.94.7-security.tar.gz,安装在机器hadoop0的/usr...
分类:
其他好文 时间:
2014-06-28 09:46:59
阅读次数:
266
公司的短信平台,数据量越来越大了,需要对数据进行一些优化,下面是拆分后的数据库量参考。新开发的软件模块,必须支持分表,拆表的功能一个数据表里,不适合保存1000万以上的记录新开发的业务模块,能分表的全分表,否则,将来我们无法用其他小型数据库,例如mysql 现在系统的短信已经进行了拆表接着打算把日....
分类:
Web程序 时间:
2014-06-27 23:09:12
阅读次数:
309
JsonCpp是c++中解析Json常用的解析库。在项目开发中,服务端如果用的是java的话都会是以JSON格式进行传输,客户端使用c++的话都会用到JsonCpp。看看下面这个问题: json字串:{"@type":"Login","messageType":"Login","sendTim...
分类:
Web程序 时间:
2014-06-27 20:36:51
阅读次数:
1935
描述 :我们现在有很多数据,分表存放,现在需要有精度条的导出。最后面有完整源码。效果图:点击导出,实现点击导出统计完成之后点击确定前面导出操作简单,从第二个导出操作开始:点击"确定"调用exportCsv函数导出exportCvs函数如下function exportCsv(){ //清除等待的转动...
分类:
其他好文 时间:
2014-06-27 18:11:43
阅读次数:
315
在前面的文章STL之heap相关操作算法中介绍了堆的相关操作算法,由于堆的注意主要作用是用于排序,我们也知道堆排序的时间复杂度为o(nlogn),是一种不稳定的排序算法,利用堆这一数据结构,我们可以很快第获取一个大数据中最大(或最小)的k个数。同时,上篇文章中,也提出了相关heap算法的一些问题...
分类:
其他好文 时间:
2014-06-27 08:16:59
阅读次数:
171
内存 - 工作集:私人工作集中的内存数量与进程正在使用且可以由其他进程共享的内存数量的总和。内存 - 峰值工作集:进程所使用的工作集内存的最大数量。内存 - 工作集增量:进程所使用的工作集内存中的更改量。内存 - 私人工作集:工作集的子集,它专门描述了某个进程正在使用且无法与其他进程共享的内存数量。...
最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧。项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了。所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家。...
分类:
其他好文 时间:
2014-06-26 10:46:32
阅读次数:
242
题目链接:bnu 34981 A Matrix
题目大意:假定有一序列,按照题目中给定的算法构造出一张二维表,现在题目给定一张二维表,要求求出序列,要求序列的倒置的字典序最大。
解题思路:构造,对于每一层来说,一定是递增的,根据算法可以得出;并且一个数被换到下一行,一定是因为有序列后面有小于自己的数,所以每一层从最后一个数开始匹配,找到上一层中比自己小的最大数字,假定是该数导致当前数被...
分类:
其他好文 时间:
2014-06-26 06:44:30
阅读次数:
294
DMCTextFilter和HTMLFilter数据过滤器我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度,DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产..
分类:
其他好文 时间:
2014-06-26 06:34:02
阅读次数:
239