?? 全文检索(Full-Text Retrieval)是指以文本作为检索对象,找出含有指定词汇的文本。全面、准确和高速是衡量全文检索系统的关键指标。 l关于全文检索,我们要知道: 1。仅仅处理文本。 2,不处理语义。 3,搜索时英文不区分大写和小写。 4。结果列表有相关度排序。 l在信息检索工具中 ...
分类:
Web程序 时间:
2017-04-18 12:26:59
阅读次数:
192
介绍:http://www.coreseek.cn/Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景,用户可以免费下 ...
分类:
其他好文 时间:
2017-04-13 21:10:58
阅读次数:
412
索引压缩的作用 词典压缩 倒排记录表压缩 参考资料:《信息检索导论》-- 第五章 ...
分类:
其他好文 时间:
2017-04-12 11:03:21
阅读次数:
160
1.什么是Sphinx Sphinx是俄罗斯人Andrew Aksyonoff开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。 全文检索式指以文档的全部文本信息作为检索对象的一种信息检索技术。检索的对象有可能是文章的标题,也有可能是文章的作者,也有可能是文章的摘要或内容。常用于新闻, ...
分类:
Web程序 时间:
2017-04-08 16:07:35
阅读次数:
470
转载自http://blog.sina.com.cn/s/blog_4586764e0100o9s1.html 使用explain语句去查看分析结果 如 explain select * from test1 where id=1; 会出现: id selecttype table type pos ...
分类:
数据库 时间:
2017-03-19 11:58:15
阅读次数:
222
数据应用当中,最近邻查询是非常重要的功能。不论是信息检索,推荐系统,还是数据库查询,最近邻查询(Nearst Neighbor Search)可谓无处不在。它要实现的是帮助我们找到数据中和查询最接近的...
分类:
其他好文 时间:
2017-02-25 00:14:34
阅读次数:
333
奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集。 优点:简化数据,取出噪声,提高算法的结果 缺点:数据的转换可能难以理解 适用数据类型:数值型数据 SVD最早的应用之一是信息检索,我们称利用SVD的方法为隐形语义索引(LSI)或 ...
分类:
其他好文 时间:
2017-01-19 16:55:24
阅读次数:
176
有赞大数据实践: 敏捷型数据仓库的构建及其应用有赞大数据实践: 敏捷型数据平台的构建及其应用前言数据仓库设计总体架构数据仓库实例基础指标层分层的好处数仓工具数据仓库与数据分析即席查询系统多维分析系统搜索分析系统固定报表系统数据仓库在信息检索中的应用小结前言互联网公司一般发展迅速. 一方面, 业务飞速... ...
分类:
其他好文 时间:
2017-01-05 18:20:48
阅读次数:
272
一. LSA 1. LSA原理 LSA(latent semantic analysis)潜在语义分析,也被称为 LSI(latent semantic index),是 Scott Deerwester, Susan T. Dumais 等人在 1990 年提出来的一种新的索引和检索方法。该方法和 ...
分类:
其他好文 时间:
2016-12-25 18:45:34
阅读次数:
260
1.SELECT语句 从一个表或多个表中检索信息 2.检索单个列 输入: SELECT prod_name FROM Products; 输出: 没有过滤,也没有排序,输出数据顺序可能不同。 3.检索多个列 输入: SELECT prod_id, prod_name, prod_price FROM... ...
分类:
其他好文 时间:
2016-12-04 21:13:42
阅读次数:
193