话不多话都在注释上
public class OperatorIndex {
public static final String INDEX_PATH = "D:/indexDir";
// 创建分词器
private Analyzer analyzer = null;
// 索引保存目录
private File indexFile = null;
// 目录对象...
分类:
Web程序 时间:
2014-12-17 14:39:43
阅读次数:
272
1 // lex_analyzer.cpp : 定义控制台应用程序的入口点。 2 //词法分析器 3 /* 4 sys: 5 1-10:关键字 6 10:标识符 7 11:数字 8 //比较区 9 20: 12 23:>= 13 24:= 14 25:== 15 //运算区 16...
分类:
其他好文 时间:
2014-12-16 20:46:09
阅读次数:
192
最近又要做文本方面的处理,由于需求的定制化较高,还可能要放到集群上使用,所以不能再用公司封得严严密密、又笨又重的分词组件了。于是再次在网上找了一下能下载的分词工具,开源的:mmseg、IK_Analyzer、imdict、paoding、jcseg、free_ictclas、fnlp闭源的:NLPI...
分类:
其他好文 时间:
2014-12-16 17:00:10
阅读次数:
6186
From 6.01, DB Query Analyzer provides SQL Execute Schedule function to execute SQL scripts in certain time. Without changing any Windows OS settings or configurations, DB Query Analyzer 6.03 can run on any Microsoft Windows OS directly.
DB Query Analyzer ...
分类:
数据库 时间:
2014-12-16 08:45:24
阅读次数:
374
Shallow Heap和Retained Heap这两个名词在Java内存分析时经常遇到。本博文是Eclipse Memory Analyzer中关于Shallow Heap和Retained Heap帮助文档的翻译。 Shallow Heap是被一个对象消费的内存。Retained Heap是指X的Retained Set中所有对象的Shallow Size和。...
分类:
其他好文 时间:
2014-12-15 09:06:52
阅读次数:
249
注:本文谢绝转载! 1 CHM 概述 Cluster HealthMonitor 会通过OS API来收集操作系统的统计信息,如内存,swap 空间使用率,进程,IO 使用率,网络等相关的数据。 CHM 的信息收集是实时的,在11.2.0.3 之前是每1秒收集一次,在11.2.0.3 之后,改成每5秒收集一次数据,并保存在CHM 仓库中。 这个收集时间间隔不能手工修改。 CHM 的目的也是为了...
分类:
数据库 时间:
2014-12-12 22:17:10
阅读次数:
518
环境描述 Windows 2012 R2,SharePoint 2013(没有sp1补丁),sql server 2012错误描述 搜索服务正常,但是爬网一直在Crawling Full,但是爬不到任何东西,而且不会停止,爬了一宿什么都没有爬到: 爬网不止,爬了一宿什么都没有爬到,错误如下: ...
分类:
其他好文 时间:
2014-12-12 22:03:58
阅读次数:
253
环境描述 Windows 2012 R2,SharePoint 2013(没有sp1补丁),sql server 2012错误描述 搜索服务正常,但是爬网一直在Crawling Full,但是爬不到任何东西,而且不会停止,爬了一宿什么都没有爬到: 爬网不止,爬了一宿什么都没有爬到,错误如下: 去15/logs里面找日志;Non-OAuth request. IsAuthenticated...
分类:
其他好文 时间:
2014-12-12 19:15:10
阅读次数:
218
solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。一、版本信息solr版本:4.7.0需要ik-analyzer版本:IK Analyzer 2012FF_hf1ik-analyzer下载地址:...
分类:
其他好文 时间:
2014-12-12 16:35:14
阅读次数:
273
IK分词全名为IK Analyzer,是由java编写的中文分词工具包,目前在lucene以及solr中用的比较多,本系列的文章主要对ik的核心源码进行解析讲解,与大家分享,如果有错误的地方还望指教。
先来个整体概况:
其实从上面的图可以看出,真实的ik的代码其实并不多,这样给我们开始接触心里压力就小的多。
先打开IKAnalzyerDemo.java文件,先大体看看IK的工作流...
分类:
其他好文 时间:
2014-12-09 19:46:10
阅读次数:
287