这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集.....
分类:
编程语言 时间:
2015-12-03 00:15:40
阅读次数:
463
CREATE OR REPLACE PACKAGE qms_rpt_operating_station_pub AS/******************************************************************************NAME: qms_rpt...
分类:
其他好文 时间:
2015-11-27 10:53:46
阅读次数:
125
Elasticsearch是个开源分布式搜索引擎它的特点有分布式零配置自动发现索引自动分片索引副本机制restful风格接口多数据源自动搜索负载等。Logstash是一个完全开源的工具他可以对你的日志进行收集、分析并将其存储供以后使用如搜索。kibana也是一个开源和免费的工具他Kibana可以..
分类:
其他好文 时间:
2015-11-24 13:03:49
阅读次数:
253
2.2.1 索引序列中的所有元素都是有编号的——从0开始递增。这些元素可以通过编号分别访问,如下例所示:>>>greeting='Hello'>>>greeting[0]'H'字符串字面值(就此而言,其他序列字面量亦可)能够直接使用索引>>>'Hello'[1]'e'2.2.2 分片编号在这里尤为重...
分类:
其他好文 时间:
2015-11-19 22:34:16
阅读次数:
209
组成部分 Shuffle阶段分为两部分:Map端和Reduce端。 Sort阶段就是对Map端输出的key进行排序。 第一部分:Map端Shuffle 对于输入文件,会进行分片,对于一个split,有一个map任务进行处理,每个Map在内存中都有一个缓存区,map的输...
分类:
其他好文 时间:
2015-11-18 14:05:48
阅读次数:
174
TCP segment of a reassembled PDU 抓包发现一个TCP segment of a reassembled PDU,搜了一下blog,找到一些博友的文章,很好地解决了我的问题,遂分享 “TCP segment of a reassembled PDU”指的不是IP层的分片...
分类:
其他好文 时间:
2015-11-17 19:03:40
阅读次数:
798
1、概述复制集是一个带有故障转移的主从集群。是从现有的主从模式演变而来,增加了自动故障转移和节点成员自动恢复。复制集模式中没有固定的主结点,在启动后,多个服务节点间将自动选举 产生一个主结点。该主结点被称为primary,一个或多个从结点被称为secondaries。primary结点基本上就是ma...
分类:
数据库 时间:
2015-11-17 00:11:24
阅读次数:
350
Redis分片:为什么要分片:随着Redis存储的数据越来越庞大,会导致Redis的性能越来越差!目前分片的方法:1、客户端分片在应用层面分片,程序里指定什么数据存放在那个Redis 优势:比较灵活 缺点:加个节点扩容就很费劲2、代理Proxy分片 第三方的Twemproxy 使用代理的缺点,你代....
分类:
其他好文 时间:
2015-11-16 18:59:40
阅读次数:
147
这几天双十一弄得不要不要的。各种困。出差有一些时间。晚上回头摆弄摆弄。白天不忙就是找个地方想想写写。就这样一周多过去了。好了。不扯了入正题。1 .环境搭建MacBook pro 15款840 OS X 10.10.5 solr-5.2.1.tgz zookeeper-3.4.6.tar.gz VM....
分类:
其他好文 时间:
2015-11-15 17:46:58
阅读次数:
555
1、想要自己定义的python对象支持索引与分片操作就要重载__getitem__\__setitem__这两个方法。2、__getitme__(self,index) 这里的index参数可能类型有两种int,slice。当它是int类型时对应索引操作,当它是slice时对应分片操作。3、__s....
分类:
编程语言 时间:
2015-11-12 20:07:49
阅读次数:
593