自然语言处理:单词计数 这一讲主要内容(Today): 1、语料库及其性质; 2、Zipf 法则; 3、标注语料库例子; 4、分词算法; 一、 语料库及其性质: a) 什么是语料库(Corpora) i. 一个语料库就是一份自然发生的语言文本的载体,以机器可读形式存储; ii. 一种平衡语料库尝试在 ...
分类:
编程语言 时间:
2017-02-26 18:48:34
阅读次数:
227
【本篇文章主要是通过一个单词计数的案例学习,来加深对storm的基本概念的理解以及基本的开发流程和如何提交并运行一个拓扑】 单词计数拓扑WordCountTopology实现的基本功能就是不停地读入一个个句子,最后输出每个单词和数目并在终端不断的更新结果,拓扑的数据流如下: 语句输入Spout: 从 ...
分类:
其他好文 时间:
2016-09-11 14:13:43
阅读次数:
167
Twitter已经用Heron完全替换了Storm。前者现在每天处理“数10TB的数据,生成数10亿输出元组”,在一个标准的单词计数测试中,“吞吐量提升了6到14倍,元组延迟降低到了原来的五到十分之一”,硬件减少了2/3。
本文对Heron的介绍摘要如下:
Storm worker架构的限制:
Worker的设计比较复杂. 大量的instances都在一个worker进程里面....
分类:
其他好文 时间:
2016-07-15 21:29:26
阅读次数:
250
图中1:表示待处理数据,比如日志,比如单词计数图中2:表示map阶段,对他们split,然后送到不同分区图中3:表示reduce阶段,对这些数据整合处理。图中4:表示二次mapreduce,这个是mapreduce的链式,详细可以看让你真正明白什么是MapReduce组合式,迭代式,链式 ...
分类:
其他好文 时间:
2016-06-23 12:29:19
阅读次数:
119
现在,网上基于spark的代码基本上都是Scala,很多书上也都是基于Scala,没办法,谁叫spark是Scala写出来的了,但是我现在还没系统的学习Scala,所以只能用java写spark程序了,spark支持java,而且Scala也基于JVM,不说了,直接上代码这是官网上给出的例子,大数据学习中经典案例单词计数
在linux下一个终端 输入 $ nc -lk 9999 然后运行下面的代码...
分类:
编程语言 时间:
2016-06-12 03:02:21
阅读次数:
216
什么是state(状态)管理?我们以wordcount为例。每个batchInterval会计算当前batch的单词计数,那如果需要单词计数一直的累加下去,该如何实现呢?SparkStreaming提供了两种方法:updateStateByKey和mapWithState。mapWithState是1.6版本新增功能,目前属于实验阶段。mapWithSta..
分类:
其他好文 时间:
2016-05-29 16:51:04
阅读次数:
250
一、前言在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境。既然环境已经搭建好了,那么现在我们就应该来干点正事嘛!比如来一个Hadoop世界的HelloWorld,也就是WordCount程序(一个简单的单词计数程序)二、WordCount 官方案例的运行
2.1 程序简介
WordCount程序是hadoop自带的案例,我们可以在 hadoop 解压目录下找到包含这...
分类:
编程语言 时间:
2016-05-03 18:26:58
阅读次数:
304
最近在看google那篇经典的MapReduce论文,中文版可以参考孟岩推荐的 mapreduce 中文版 中文翻译 论文中提到,MapReduce的编程模型就是: 计算利用一个输入key/value对集,来产生一个输出key/value对集.MapReduce库的用户用两个函数表达这个计算:map...
分类:
其他好文 时间:
2016-03-01 22:31:49
阅读次数:
259
声明:本文摘录自《大数据日知录——架构与算法》一书。较常见的计算模式有4类,实际应用中大部分ETL任务都可以归结为这些计算模式或者变体。1.求和模式 a.数值求和 比如我们熟悉的单词计数,即使该模式的一个应用。求最大最小值,求平均值皆属此类。 b.记录求和 非数值内容的累加,形成队列。比如将...
分类:
其他好文 时间:
2015-10-17 21:54:02
阅读次数:
281