一、前提 IKAnalyzer分词器常应用于大数据开发的数据准备阶段,它能对任意长的文字进行关键字提取、文字重组、数据清洗等二次处理,并将处理好的关键数据通过某种分割符重新拼接起来,形成一个可用于进行机器学习的数据集。 二、准备阶段 使用eclipse创建一个Maven工程,通过配置pom.xml文 ...
分类:
编程语言 时间:
2019-02-03 22:10:17
阅读次数:
464
0 前言 提前先祝大家春节快乐!好了,先简单聊聊。 我从事的是大数据开发相关的工作,主要负责的是大数据计算这块的内容。最近Hive集群跑任务总是会出现Thrift连接HS2相关问题,研究了解了下内部原理,突然来了兴趣,就想着自己也实现一个RPC框架,这样可以让自己在设计与实现RPC框架过程中,也能从 ...
分类:
其他好文 时间:
2019-02-02 00:17:08
阅读次数:
275
split方法在大数据开发中的多用于日志解析及字段key值分割,最近需求中碰到一个问题在 无论怎么分割都会出现数组下标越界问题, 由于前台在sdk中多加了几个字段(测试数据很少,大多为空) ,需要我们进行字段补全插入到mysql中,但项目过于老,2016年项目使用的是spark1.5.2不说,使用j ...
分类:
其他好文 时间:
2019-01-30 11:18:25
阅读次数:
166
商务智能。商务智能工程师是商业智能行业的工程师。从需求分析师到数据仓库架构师、ETL工程师、数据分析工程师、报表开发工程师、数据挖掘工程师等,都可以称为BI工程师。
ETL工程师:从事系统编程、数据库编程和设计,掌握各种常用编程语言的专业技术人员。也称为数据库工程师。
分类:
其他好文 时间:
2019-01-30 10:13:55
阅读次数:
179
从Java开发通过大概3个月的学习转到大数据开发,主要分享一下学习路径: 第一阶段: 01.Linux学习(跟鸟哥学就ok了) 02.Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》) 第二阶段: 03.Hadoop (董西成的书) 04.HBase(《HBase权威指南》) ...
分类:
编程语言 时间:
2019-01-29 12:49:15
阅读次数:
296
最近很多人都想学习大数据开发,但是却不知道如何开始学习,今天软妹子专门整理了一份针对大数据初学者的大数据开发学习路线。 下面分十个章节来说明大数据开发要学习的内容: 我想告诉你,每一份坚持都是成功的累积,只要相信自己,总会遇到惊喜;我想告诉你,每一种活都有各自的轨迹,记得肯定自己,不要轻言放弃;我想 ...
分类:
其他好文 时间:
2019-01-28 10:48:26
阅读次数:
199
先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖掘出来; 处理时效性高,海量数据的处理需求不再局限在离线计算当中。 现如今,正式为了应对大数据的这几个特 ...
分类:
其他好文 时间:
2019-01-22 10:57:06
阅读次数:
256
离线和实时大数据开发实战 目 录 前言 第一篇 数据大图和数据平台大图 第1章 数据大图 2 1.1 数据流程 2 1.1.1 数据产生 3 1.1.2 数据采集和传输 5 1.1.3 数据存储处理 6 1.1.4 数据应用 7 1.2 数据技术 8 1.2.1 数据采集传输主要技术 9 1.2.2 ...
分类:
其他好文 时间:
2019-01-10 19:31:47
阅读次数:
132
hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。Hadoop不仅仅是大数据技术的核心重点,还是我们面试官面试的时候经常会问道的问题,本文将详细介绍Hadoop的运行原理。 ...
分类:
其他好文 时间:
2019-01-03 19:25:12
阅读次数:
145
本文实例讲述了PHP实现在数据库百万条数据中随机获取20条记录的方法。PHP实例分享给大家供大家参考,具体如下:为什么要写这个?在去某个公司面试时,让写个算法出来,当时就蒙了,我开发过程中用到算法的吗?又不是大数据开发,分析。今天偶然想起来一个坑爹数据,如:PHP取百万条数据中随机20条记录,当时就 ...
分类:
数据库 时间:
2019-01-01 18:16:13
阅读次数:
200