目前,我们已经知道了怎么把ES作为一个简单的NoSQL风格的分布式文档存储的使用方法,我们能把JONS格式的document存储进去,也通过ID检索出来,但是ES的强大功能不止于此,他能整理混乱的数据,把大数据变成大信息。这也是我们使用JSON格式而不是使用其他格式存储document的原因,ES不...
分类:
其他好文 时间:
2014-05-26 14:44:06
阅读次数:
333
$ ID=$(sudo docker run -d ubuntu /usr/bin/top
-b)$ sudo docker attach $ID在容器中运行top命令。如果attach 的时候就能看到top的是输出。$ sudo docker
stop $ID 就能结束这个容器。docker bu...
分类:
其他好文 时间:
2014-05-26 14:38:52
阅读次数:
421
本文介绍一个简单的多线程并发爬虫,这里说的简单是指爬取的数据规模不大,单机运行,并且不使用数据库,但保证多线程下的数据的一致性,并且能让爬得正起劲的爬虫停下来,而且能保存爬取状态以备下次继续。
爬虫实现的步骤基本如下:分析网页结构,选取自己感兴趣的部分;建立两个Buffer,一个用于保存已经访问.....
分类:
编程语言 时间:
2014-05-26 13:13:56
阅读次数:
318
几年前,Java将死的话题被传得沸沸扬扬,特别是在甲骨文公司收购SUN公司后,几乎全世界的Java程序员都皱起了眉头。但随着Google
Android平台的崛起以及大数据时代的来临,Java似乎又重新焕发了光芒。2014年1月份,CSDN携手《程序员》杂志发起了“2013年中国软件开发者薪资大调查...
分类:
编程语言 时间:
2014-05-26 08:04:01
阅读次数:
261
微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说,大数据量要更容易对比.抢夺大数据市场,需要具备一定的实力,报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数...
分类:
其他好文 时间:
2014-05-26 07:08:41
阅读次数:
221
写在前面一:
本文总结“Hadoop生态系统”中的其中一员——Apache Flume
写在前面二:
所用软件说明:
一、什么是Apache Flume
官网:Flume is a distributed, reliable, and available
service for efficiently
collecting, aggregating, and m...
分类:
其他好文 时间:
2014-05-26 04:32:10
阅读次数:
359
描述
:我们现在有很多数据,分表存放,现在需要有精度条的导出。最后面有完整代码。效果图:点击导出,实现点击导出统计完成之后点击确定前面导出操作简单,从第二个导出操作开始:点击"确定"调用exportCsv函数导出exportCvs函数如下
function exportCsv(){ //清除等待的转...
分类:
其他好文 时间:
2014-05-24 14:05:01
阅读次数:
420
最近在做一个投票系统,关于缓存的使用上稍微思考了下,总结了以下几点:1.缓存的数据,一般为数据库查询出来的数据。要么就是大数据,要么就是访问频率很高的数据。2.缓存只是一个提高效率的手段,但不保险,编写代码的时候,要考虑万一缓存不命中的情况,而不知只单纯的从数据库中提取数据。一般的思路是,查询缓存数...
分类:
其他好文 时间:
2014-05-24 12:41:49
阅读次数:
229
hadoop安装计大体上按这个做就好了http://blog.csdn.net/hitwengqi/article/details/8008203需要修改hadoop-env.shexport
JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64export PAT...
分类:
其他好文 时间:
2014-05-24 11:17:22
阅读次数:
210
今天终于把近5G的数据上传到了SharePoint2010站点上,上传过程中发现几个要注意的问题:
1. 用360浏览器打开SP 2010站点,发现在workspace同步和windows explorer二个按钮都被禁掉了(但workspace可以连到sp
site进行同步),但检查了站点设置里面...
分类:
其他好文 时间:
2014-05-24 10:24:58
阅读次数:
230