创建水平分布式数据库,需要分两步实现:划分子集和对子集进行并集操作。分布式数据库的优势是:IO分散,便于快速读取数据,劣势是消耗大量的网络带宽资源。 划分子集是将原始表水平切分成若干个较小的成员表,每一个成员表都是全集的一个划分(各子集的并集是全集,其交集是空集)。每个成员表包含与原始表相同数量的列 ...
分类:
数据库 时间:
2016-06-19 01:13:11
阅读次数:
386
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法
定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配
1.1正向最大匹配思想MM
从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
查找大机器词...
分类:
其他好文 时间:
2016-06-17 12:56:42
阅读次数:
239
Fork/Join框架是Java7提供了的一个用于并行执行任务的框架,是一个把大任务分割成若干个小任务,最终汇总每个小任务结果后得到大任务结果的框架。Fork就是把一个大任务切分为若干子任务并行的执行。类似MapReduce里面的Map。Join就是合并这些子任务的执行结果,最后得到这个大..
分类:
编程语言 时间:
2016-06-15 12:52:13
阅读次数:
452
图的生成树是它的一棵含有其所有顶点的无环连通子图。一幅加权无向图的最小生成树是它的一棵权值最小的生成树。如下图 树的两个重要性质: 用一条边连接树中的任意两个顶点都会产生一个新的环 从树中删除一条边将会得到两棵独立的树。 图的一种切分是将图的所有顶点分为两个非空且不重复的两个集合。横切边是一条连接两 ...
分类:
其他好文 时间:
2016-06-10 14:57:29
阅读次数:
136
1.纵向切分页面:CSS POSITION的默认值为:STATIC 1) 1 <html> 2 <head> 3 <title>Hello</title> 4 </head> 5 <body> 6 <div style="float:left;background:red;width:50%;hei ...
分类:
Web程序 时间:
2016-06-09 18:41:29
阅读次数:
205
数据库切分概述OLTP和OLAP在互联网时代,海量数据的存储与访问成为系统设计与使用的瓶颈问题,对于海量数据处理,按照使用场景,主要分为两种类型:联机事务处理(OLTP)和联机分析处理(OLAP)。联机事务处理(OLTP)也称为面向交易的处理系统,其基本特征是原始数据可以立即..
分类:
其他好文 时间:
2016-06-09 16:01:52
阅读次数:
233
当我们想要模糊查询时,之前用like %来进行查询,但是为了提高查询速度,提出了全文索引。 全文索引是用空间换取了时间,它将每个表中的数据进行切分存储,这样就能很快的定位到模糊查询的数据。 全文索引快的原因以及contains与like查找区别比较 下面是摘自百度百科的介绍: 全文索引技术是目前搜索 ...
分类:
数据库 时间:
2016-06-06 00:37:44
阅读次数:
179
IK分词器如果配置成 本人测试切分词可以,但是同义词,扩展词库用不了, 网上查各种资料说IK分词器有个BUG,要自己把jar文件改一下,于是找到IK的源码,里面只有IKAnalyzer的源码,代码如下 自己加了一个IKAnalyzerSolrFactory,代码如下 这样一来就能在配置文件中配置成I ...
分类:
其他好文 时间:
2016-06-04 16:27:30
阅读次数:
1218
在终端中使用adb logcat打印服务器json数据,如果返回数据过大超过4000字节(4K)即会截断不显示 原因:logcat在对于message的内存分配大概是4k左右.所以超过的内容都直接被丢弃; 解决方案:切分超过4k的message,使用多个Log.i输出 如果想研究源代码,请简单参照如 ...
分类:
移动开发 时间:
2016-06-02 16:25:13
阅读次数:
1321
因为 ffmpeg 是支持切分 mp4 视频的,所以我就理所当然的以为 ffmpeg 是支持视频合并。直到今天同事找我问方法,才发现一直以为的方法是错误的, mp4 不支持直接 concate(丢人了。。。),赶紧补了一下能量,从网上抓来了多种实现。 注: 这里的 mp4 指的是网上最多见的 h26 ...
分类:
其他好文 时间:
2016-05-31 22:15:48
阅读次数:
158