一:起因
(1)学习IT的人,不论是写前端还是后台;有时候需要对数据进行清洗处理,例如,数据库日志分析。
(2)处理数据的大小由MB 到 GB,在到TB,最后导致处理的每一个文件都超过java jvm初始的heap
(3)对于单个文件比较小的,并行要求不高的数据,我们可以通过更改JVM的初始参数进行解决 —— 但是这并不是根本的解决办法。
(4)根本的解决办法是hadoop分布式系统下的M...
分类:
编程语言 时间:
2014-11-14 15:41:19
阅读次数:
201
很多PHP搭建的网站都在由apache转向了nginx。nginx的日志信息如何分析呢?推荐一款结果信息非常详尽的开源工具——Awstats ,它基于perl编写,它的介绍如下:AWStats is a free powerful and featureful tool that generates...
分类:
其他好文 时间:
2014-11-14 14:16:41
阅读次数:
166
基于Hadoop、Zookeeper、HBase、Flume框架上搭建一起来的一个日志分析系统。
使用Hadoop中的HDFS作为原始数据的存储,Flume作为数据的实时采集、转换等功能。
HBase作为数据的存储数据库,查询页面的数据都从这个分布式数据库中的一个表中获
取,根据应用程序的业务不同,查询不同的HBase表。实现了下面几大功能:
1 数据采集、转换和存储。正如上面介绍...
分类:
其他好文 时间:
2014-11-05 10:55:34
阅读次数:
182
网站联盟广告上的数据挖掘在网站联盟广告上存在大量数据,再加上联盟网站上用户的访问信息,每天都会产生海量的数据。通过之文章中提及的网站日志分析,我们可以掌握到很多与网站和访客相关的信息。再进一步分析访客在网站主和访客点击广告的后续行为,我们可以对访客的属性,包括年龄、性别、学历、收入、籍贯和兴趣爱好等...
分类:
其他好文 时间:
2014-11-03 19:13:32
阅读次数:
217
后面为了引入Dubbo RPC框架(用spring配置),先把spring 引入jstorm中,请先了解一下jsorm多线程方面的文档:http://storm.apache.org/documentation/Understanding-the-parallelism-of-a-Storm-topology.html .
A worker process exe...
分类:
编程语言 时间:
2014-10-30 22:43:42
阅读次数:
517
本地模式启动的.
package com.doctor.kafkajstrom;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.TimeUnit;
import org.apache.commons.lang.RandomStringUtils;
import org.slf4j.Log...
分类:
编程语言 时间:
2014-10-30 22:37:43
阅读次数:
465
安装logstash+kibana+elasticsearch+redis搭建集中式日志分析平台2014-01-16 19:40:57|分类:logstash|标签:logstashkinanaelasticsearchredis日志分析|举报|字号订阅本文是参考logstash官方文档实践的笔记,...
分类:
其他好文 时间:
2014-10-29 14:45:10
阅读次数:
270
日志分析平台Sm@rtLogAnalysis是为用户提供通过图形界面快捷查找历史日志,高效定位问题的功能。提供了平台日志查询、业务日志查询、日志备份、日志系统节点管理等功能,可以帮助用户准确配置和查询日志信息。
日志分析平台分两部分,一部分是日志采集模块即LogApp,负责收集ESB平台日志和业务日志,另一部分是日志分析模块,负责分类分析日志、备份日志等功能。
产品...
分类:
其他好文 时间:
2014-10-27 17:40:02
阅读次数:
200
package com.doctor.logbackextend;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
import kafka.consumer.Consumer;
import kafka.consumer.ConsumerCo...
分类:
Web程序 时间:
2014-10-26 09:07:44
阅读次数:
383
AWStats是在Sourceforge上发展很快的一个基于Perl的WEB日志分析工具。它可以统计您站点的如下信息:访问量(UV),访问次数,页面浏览量(PV),点击数,数据流量等精确到每月、每日、每小时的数据访问者国家访问者IPRobots/Spiders的统计访客持续时间对不同Filestype的统计信..
分类:
其他好文 时间:
2014-10-22 16:05:48
阅读次数:
228