决策树的训练与测试 如何切分特征(选择节点) 衡量标准-熵 衡量标准-熵 信息增益 信息增益 决策树构造实例 信息增益:表示特征X使得类Y的不确定性减小的程度。(分类后的专一性,希望分类后的结果是同类在一起) Outlook = sunny时,熵值 = (-2/5)*log(2/5)/log2 - ...
分类:
编程语言 时间:
2018-01-29 17:33:56
阅读次数:
220
在Hadoop中,一个MapReduce作业会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。作业的输入和输出都会被存储在文件系统中,整个框架负责任务的调度和监控,以及重新执行已关闭的任务。MapReduce框 ...
分类:
其他好文 时间:
2018-01-27 21:19:10
阅读次数:
194
字符串的拆分1、splitlines 以行切分字符串,可以指定是否保留行标志,0和1代表的是布尔值2、split
分类:
其他好文 时间:
2018-01-27 13:47:35
阅读次数:
155
前言:为什么Hadoop基本类型还要定义序列化? 1、Hadoop在集群之间通信或者RPC调用时需要序列化,而且要求序列化要快,且体积要小,占用带宽小。 2、java的序列化机制占用大量计算开销,且序列化结构体积过大,它的引用机制也导致大文件不能被切分,浪费空间,此外,很难对其他语言进行扩展使用。 ...
分类:
其他好文 时间:
2018-01-26 23:00:04
阅读次数:
181
随着 微服务 的流行,相比较以前一个大型应用程序搞定所有需求,我们现在更倾向于把大型应用程序切分成多个微服务,服务之间通过 RPC 调用。微服务架构的好处非常多,例如稳定的服务变化较少,不会被非稳定服务所影响;不同的服务更方便交给不同的人管理;发布、扩容等操作也更加有针对性。不过这也不是没有代价的, ...
分类:
编程语言 时间:
2018-01-26 17:09:47
阅读次数:
380
1 功能说明 设计一个topology,来实现对文档里面的单词出现的频率进行统计。整个topology分为三个部分: SentenceSpout:数据源,在已知的英文句子中,随机发送一条句子出去。 SplitBolt:负责将单行文本记录(句子)切分成单词 CountBolt:负责对单词的频率进行累加 ...
分类:
其他好文 时间:
2018-01-24 17:03:04
阅读次数:
226
vim编辑器基本操作介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任。 可能很多小伙伴都听说过vi编辑器或是vim编辑器。它们是Unix和Linux世界最流行的编辑器之一,他们的特点是短小精悍,功能强大。vim有独特的操作方式,但是对于初学者来说上手有一定的难度,其难点就是在于切 ...
分类:
系统相关 时间:
2018-01-24 00:36:11
阅读次数:
234
有时候,我们需要从一个系统里导出数据,并导入另外一个系统中,而这个数据很大,而数据导入受到限制,无法实现,这时,我们就需要对数据进行List切分,然后再一个个导出,最终,实现数据导入。对于数据的分段处理,我们可以采用subList方法进行实现,具体用法可参看以下案例:import java.util.ArrayList;import java.util.List;public class list
分类:
编程语言 时间:
2018-01-19 17:54:26
阅读次数:
172
本文将以“用户中心”为例,介绍“单KEY”类业务,随着数据量的逐步增大,数据库性能显著降低,数据库水平切分相关的架构实践: 如何来实施水平切分 水平切分后常见的问题 典型问题的优化思路及实践 一、用户中心 用户中心是一个非常常见的业务,主要提供用户注册、登录、信息查询与修改的服务,其核心元数据为: ...
分类:
数据库 时间:
2018-01-15 18:44:07
阅读次数:
209
摘自:https://github.com/dead-horse/node-style-guide https://github.com/felixge/node-style-guide 2空格缩进 使用2个空格而不是 tab 来进行代码缩进,同时绝对不要混用空格和 tab 。 Sublime Te ...
分类:
Web程序 时间:
2018-01-15 16:41:25
阅读次数:
238