摘要: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文 ...
分类:
其他好文 时间:
2019-02-17 23:39:34
阅读次数:
273
http://note.youdao.com/noteshare?id=fb942e6a61f94224c24182fa3578d035&sub=B04EA08F00C5477EA75C7162E68F5BE5 题记 为什么要搞 Monkey aotoMonkey 是什么 Monkey 运行篇 Mo ...
分类:
其他好文 时间:
2019-02-17 12:50:30
阅读次数:
220
主要理解Louvain 算法中对于模块度的定义:模块度是评估一个社区网络划分好坏的度量方法,它的物理含义是社区内节点的连边数与随机情况下的边数只差,它的取值范围是 [?1/2,1)。可以简单地理解为社区内部所有边权重和减去与社区相连的边权重和。 https://blog.csdn.net/qq_40 ...
分类:
编程语言 时间:
2019-02-16 13:28:46
阅读次数:
286
背景 在公司做数据工作会接触很多相关工具,这里会汇总一些核心并更理想化的工具。 工具汇总 1.打点平台 module,op,参数数组(s0 s5),常用参数 2.事件分析&漏斗分析 基于日志数据,甚至整合常用维度(比如城市、性别等)。 事件即一个基于一个度量事物(比如uv),筛选、group by ...
分类:
其他好文 时间:
2019-02-15 13:36:21
阅读次数:
140
原文地址:https://windmt.com/2018/04/17/spring-cloud-6-turbine/ 上一篇我们介绍了使用 Hystrix Dashboard 来展示 Hystrix 用于熔断的各项度量指标。通过 Hystrix Dashboard,我们可以方便的查看服务实例的综合情 ...
分类:
其他好文 时间:
2019-02-12 15:51:09
阅读次数:
213
B 先引入一段代码: 对于cal函数,只看执行次数最多的4~6行代码,负责一共执行了2n次,可对于f函数内部也执行了2n次,那么总的时间复杂度就是:T(n)= O(cal(n)* f (n)= O(4n^2)= O(n^2)。 时间和空间复杂度用来度量程序的运行时间效率和占用空间大小,即大O表示法: ...
分类:
其他好文 时间:
2019-02-07 20:44:58
阅读次数:
235
数据准备: 一、聚合为桶 按照手机的品牌brand划分为桶 查询指令: - size: 查询条数,这里设置为0,因为我们不关心搜索到的数据,只关心聚合结果,提高效率- aggs:声明这是一个聚合查询,是aggregations的缩写 - popular_colors:给这次聚合起一个名字,任意。 - ...
分类:
其他好文 时间:
2019-02-06 09:21:49
阅读次数:
200
这里是程序员秘密聚集地,各位还在架构师的道路上挣扎的小伙伴们速来
分类:
编程语言 时间:
2019-02-01 16:24:43
阅读次数:
190
耦合度的概念 耦合度是对模块(类)间关联程度的度量,可以用"联系"作同义词,"独立性"作反义词。 耦合度分类(由高到低) (1)内容耦合。当一个模块直接修改或操作另一个模块的数据,或者直接转入另一个模块时,就发生了内容耦合。此时,被修改的模块完全依赖于修改它的模块。类与类之间直接调用或继承关系都是属 ...
分类:
其他好文 时间:
2019-01-31 13:13:01
阅读次数:
211
不管产品规模是大还是小,结构简单还是复杂,质量评估都不是一件容易的事情。 尽管很难,但质量评估仍然是必需的,因为关系到版本是否能够发布、测试工作是否有效、测试投入是否有价值等。 那么,如何把握软件产品的质量? 发布之前 产品发布之前可以对如下指标进行评估 ● Bug Bug数量、Bug趋势图、Bug ...
分类:
其他好文 时间:
2019-01-30 17:09:45
阅读次数:
147