介绍 Apache DataFu分两部分,本文介绍的是其Pig UDF的部分。代码在Github上开源(除了代码外。也有一些slides介绍链接)。 DataFu里面是一些Pig的UDF。主要包含这些方面的函数: bags、geo、hash、linkanalysis、random、sampling、 ...
分类:
Web程序 时间:
2017-08-15 21:49:41
阅读次数:
233
摘要: 1.Apache Kafka基本概念 2.Kafka的安装 3.基本工具创建Topic 本文基于centos7, Apache Kafka 0.11.0 一、基本概念 Apache Kafka是一个发布/订阅的消息系统,于2009年源自Linkedin,并与2011年开源。在架构方面,Kaf ...
分类:
Web程序 时间:
2017-08-13 16:24:33
阅读次数:
230
1. 基本介绍 Kafka是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态 kafka的集群由多个Broker服务器组成,每个类型 ...
分类:
其他好文 时间:
2017-07-28 22:11:41
阅读次数:
191
1 概述 ZooKeeper(动物园管理员),顾名思义。是用来管理Hadoop(大象)、Hive(蜜蜂)、Pig(小猪)的管理员。同一时候Apache HBase、Apache Solr、LinkedIn Sensei等众多项目中都採用了ZooKeeper。 ZooKeeper是Hadoop的正式子 ...
分类:
其他好文 时间:
2017-07-25 12:35:52
阅读次数:
118
CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-8-19 @author: guaguastd @name: job_title_standard.py ''' import os import csv from ...
分类:
编程语言 时间:
2017-07-23 13:42:34
阅读次数:
195
我应聘的是Android职位,因为我之前做了一些android项目,像是mini-linkedin, dribbble,简历上相关经验还蛮多的,所以简历关顺顺利利就过了。感谢带我做项目的九章的郭靖老师。 然鹅,最后还是跪在四面,好可惜啊,没有看到junyu!!!是次不错的经历!总结一下,跟大家分享一 ...
分类:
移动开发 时间:
2017-07-18 00:04:31
阅读次数:
291
本文介绍LinkedIn开源的Kafka,久仰大名了,依照其官方文档做些翻译和二次创作。相应能够查看整份官方文档。 基本术语 topics。维护的消息源种类(更像是业务上的数据种类/分类) producer。给kafka的某个topic公布消息的进程 consumer,订阅和处理topic的消息的进 ...
分类:
其他好文 时间:
2017-07-16 19:28:29
阅读次数:
221
简介 Apache Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。 Kafka架构 它的架构包括以下组件: 话题(Topic):是特定类型的消息流。消息是字 ...
分类:
其他好文 时间:
2017-07-03 13:58:06
阅读次数:
135
最近,利用一些时间对oracle数据库实时同步工具做了一些调研分析,主要关注了linkedin的databus和阿里的yugong两个中间件,其中databus需要在每个待同步的表上增加额外的列和触发器来实现,方案比较重,本文将着重分析一下阿里的yugong实现方案及给出分析调研报告。 1.yugo ...
分类:
数据库 时间:
2017-06-25 15:29:18
阅读次数:
362
Nodejs的介绍 Node.js的是建立在Chrome的JavaScript的运行时,可方便地构建快速,可扩展的网络应用程序的平台。Node.js使用事件驱动,非阻塞I/O模型,轻量、高效,可以完美地处理时时数据,运行在不同的设备上。 1.1. 谁在用Nodejs? 从Nodejs官方网站的企业登 ...
分类:
Web程序 时间:
2017-06-18 16:48:25
阅读次数:
279