原来的string docvalues使用utf-8编码,载入时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,降低了大约十秒的时间。想进一步优化,我们使用UTF-16LE编码,解码很easy甚至仅仅...
分类:
其他好文 时间:
2014-07-09 21:19:59
阅读次数:
226
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-07-08 23:15:59
阅读次数:
231
对于ASP.NET本身来讲,是基于IIS应用程序池,有些时候会碰到多用户需要操作同一个全局变量的问题,那么就会有多线程并发访问的问题。在这里仅介绍使用lock来对用户的操作进行加锁保证变量在同一时刻仅仅有一个线程进行访问,从而保证数据一致性。 示例代码如下:public class BUAPr...
分类:
编程语言 时间:
2014-07-08 00:54:31
阅读次数:
357
假如你像用lucene来作分组,比如按类别分组,这种功能,好了你压力大了,lucene本身是不支持分组的。当你想要这个功能的时候,就可能会用到基于lucene的搜索引擎solr。不过也可以通过编码通过FieldCache和单字段,对索引进行分组,比如:想构造类别树。大类里面还有小类那种。这个功能实现...
分类:
其他好文 时间:
2014-07-08 00:32:03
阅读次数:
247
Btree:1. 尽量使用覆盖索引, 即三星索引2. 多列索引如果带范围的话, 后续列不会作为筛选条件3. 多列索引应选择过滤性更好的充当前缀索引4. 尽量按主键顺序插入, 减少页分裂, 采用自增ID在高并发情况下, 可能造成明显征用, 或者更改innodb_autoinc_lock_mode配置....
分类:
数据库 时间:
2014-07-07 09:59:48
阅读次数:
212
由于非正常结束Weblogic 进程才导致启动终端输出这样的错误信息解决办法一.删掉Domain下的*.lok文件1. 删除edit.lok cd 删除edit.lok文件 rm edit.lok2.删除 config.lok /servers/AdminServer/tmp rm AdminSe....
分类:
Web程序 时间:
2014-07-07 09:59:08
阅读次数:
286
6.3内存索引库
6.3.1特点
在内存中开辟一块空间,专门为索引库存放。这样有以下几个特征:
1) 因为索引库在内存中,所以访问速度更快。
2) 在程序退出时,索引库中的文件也相应的消失了。
3) 如果索引库比较大,必须得保证足够多的内存空间。
6.3.2编码
在cn.hqu.directory 下新建:DirectoryT...
分类:
其他好文 时间:
2014-07-06 08:11:33
阅读次数:
188
本文由该问题引入到内核锁的讨论,归纳例如以下为什么须要内核锁?多核处理器下,会存在多个进程处于内核态的情况,而在内核态下,进程是能够訪问全部内核数据的,因此要对共享数据进行保护,即相互排斥处理有哪些内核锁机制?(1)原子操作atomic_t数据类型,atomic_inc(atomic_t *v)将v...
分类:
其他好文 时间:
2014-07-05 17:44:12
阅读次数:
155
转载:http://www.cnblogs.com/Richardzhu/articles/2796540.html 数据库是一个多用户使用的共享资源。当多个用户并发地存取数据时,在数据库中就会产生多个事务同时存取一数据的情况。若对并发操作不加控制就可能会读取和存储不正确的数据,破坏数据库的一致性。...
分类:
数据库 时间:
2014-07-03 19:52:08
阅读次数:
328
一、Solr学习相关资料
1、官方材料
(1)快速入门:http://lucene.apache.org/solr/4_9_0/tutorial.html,以自带的example项目快速介绍发Solr的基础使用。
(2)API:http://lucene.apache.org/solr/4_9_0/index.html
(3)reference:PDF格式,apache-solr-ref-...
分类:
其他好文 时间:
2014-07-03 16:56:58
阅读次数:
245