Logstash 是一个开源的数据收集引擎,它具有备实时数据传输能力。它可以统一过滤来自不同源的数据,并按照开发者的制定的规范输出到目的地。它以插件的形式来组织功能,通过配置文件来描述需要插件做什么,配置文件主要由input、filter和output三部分组成。 一、input 负责从数据源提取数 ...
分类:
其他好文 时间:
2018-12-20 17:04:12
阅读次数:
225
首先我们从宏观的视角来窥视下大数据技术框架: 图1 大数据技术框架 从图1可以看出,数据源-数据收集-数据存储-资源管理,这是我们进行数据分析和处理的基本;图中的计算框架包括批处理、交互式分析和流处理: 批处理计算:对时间没有严格要求,吞吐率要高 交互式计算:支持类SQL语言,快速进行数据分析 流式 ...
分类:
其他好文 时间:
2018-12-18 19:51:30
阅读次数:
218
大数据时代,创业不是做产品,而是做“数据收集器”,你收集的用户数据越精准、越有用,你的市值就越高。 ...
分类:
其他好文 时间:
2018-12-17 14:18:32
阅读次数:
198
部署可以修改bin文件夹下的bat文件.. java改为javaw..无窗口运行 重新启动的时候..要保证上次运行到的日志文件要还在..或者同名文件.. 保证要比之前的文件大些..所以最好是之前的文件还在.. 不会重复读取.. 他会记录上次读取到的position.. 注意文件的编码方式.. 只认u ...
2016年4月27日,欧洲议会通过了《一般数据保护条例》(简称“GDPR”)并在2018年5月25日生效。非欧盟成员国的公司(包括免费服务)只要满足下列两个条件之一: (1)为了向欧盟境内可识别的自然人提供商品和服务而收集、处理他们的信息。 (2)为了监控欧盟境内可识别的自然人的活动而收集、处理他们的信息。 该公司就受到GDPR的管辖。这个条例将对中国企业的数据管理和信息安全,以及数据收集、
分类:
其他好文 时间:
2018-12-11 19:52:02
阅读次数:
244
本书介绍了实用机器学习的工作流程,主要从实用角度进行了描述,没有数学公式和推导。本书涵盖了数据收集与处理、模型构建、评价和优化、特征的识别、提取和选择技术、高级特征工程、数据可视化技术以及模型的部署和安装,结合3个真实案例全面、详细地介绍了整个机器学习流程,还介绍了机器学习流程的扩展和大数据应用。
分类:
其他好文 时间:
2018-11-25 20:17:36
阅读次数:
629
知己知彼百战不殆,对于竞争对手或者目标消费群体的数据收集,我们乐此不疲。在ip代理盛行的今天,爬虫技术已经可以被我们充分发挥,海量收集数据,毫不手软。如果不用代理ip,我们的爬虫行动往往会受到很多限制,以致最终被完全封锁掉。有什么方法能避免呢?往下看。1.验证码我们在很多网站会遇到,如果请求量大了之后就会遇到验证码的情况。最让人诟病的12306,其实也是一定程度上的防止非正当请求的产生。对于验证码
分类:
其他好文 时间:
2018-11-13 16:14:52
阅读次数:
251
1、列表可以收集变量(数据),函数可以把一些代码收集到能够反复使用的单元中。 对象则让这种收集的思想更向前迈进一步。对象可以把函数和数据收集在一起。 2、可以通过特征或属性来描述一个对象。对象包括两个方面: (1)可以对它做什么——动作(方法) (2)如何描述——特征(属性) 拿球举个例子: 球的属 ...
分类:
其他好文 时间:
2018-11-10 21:10:28
阅读次数:
206
Docker常用监控方案 数据收集利器cAdvisor 运行cadvisor容器 通过http://[host ip]:8080来访问cadvisor 监控Docker Host cadvisor会显示当前host的资源使用情况,包括CPU、内存、网络、文件系统等 Usage 监控容器 点击Dock ...
分类:
其他好文 时间:
2018-11-10 16:45:14
阅读次数:
199
Controller: 1.控制虚拟用户数量。 2.控制性能测试场景。 3.控制各种运行策略。 4.指标监控的设置。 1.Manual Scenario:手动场景;Goal-Oriented Scenario:目标导向的场景(运行1000个用户,希望事务响应时间在5秒内。给出一个目标所以策略都是LR ...
分类:
其他好文 时间:
2018-11-06 17:46:17
阅读次数:
213