1、搜索引擎原理——从索引、搜索、facet底层原理看搜索引擎的本质2、开源搜索引擎分析——lucene(ES、Solr)、sphinx、wukong、bleve、poseidon、indextank-engine3、商业搜索引擎Splunk介绍——性能,架构,底层窥探4、提升CIS智能检索性能的方 ...
分类:
其他好文 时间:
2017-01-26 18:11:16
阅读次数:
436
http://stackoverflow.com/questions/185697/the-most-efficient-way-to-find-top-k-frequent-words-in-a-big-word-sequence http://www.geeksforgeeks.org/find ...
分类:
Web程序 时间:
2017-01-26 10:35:05
阅读次数:
223
实现效果:
上一篇文章有附全文搜索结果的设计图,下面截一张开发完成上线后的实图:
基本风格是模仿的百度搜索结果,绿色的分页略显小清新。
目前已采集并创建索引的文章约3W多篇,索引...
分类:
Web程序 时间:
2017-01-22 19:36:05
阅读次数:
355
solr5.5.0在CenOS上的安装与配置 1、 Solr简介 Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式)。它易于安装和配置,而且附带了一个基于 HTTP 的管理界面。Solr已经 ...
分类:
其他好文 时间:
2017-01-22 13:58:49
阅读次数:
357
一、需求给出一篇新闻文档,统计出现频率最高的有哪些词语。二、思路关于文本关键词提取的算法有很多,开源工具也不止一种。这里只介绍如何从Lucene索引中提取词项频率的TopN。索引过程的本质是一个词条化...
分类:
Web程序 时间:
2017-01-13 14:57:55
阅读次数:
370
Solr搜索技术 今日大纲 回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档、字段、目录对象(类)、索引写入器类、索引写入器配置类、IK分词器 查询解析器、查询对象(用户要查询的内容)、索引搜索器(索引库的物理位置)、排名文档集合(包含得分文档数... ...
分类:
其他好文 时间:
2017-01-10 23:29:51
阅读次数:
423
Reference: http://blog.csdn.net/napoay/article/details/51477586 一、选题 工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性 ...
分类:
Web程序 时间:
2017-01-10 21:14:58
阅读次数:
347
现在使用的比较常用的日志分析系统有Splunk和Elk,Splunk功能齐全,处理能力强,但是是商用项目,而且收费高。Elk则是Splunk项目的一个开源实现,Elk是ElasticSearch(Es)、Logstash、Kibana上个项目结合。Es就是基于Lucene的存储,索引的搜索引擎;lo ...
分类:
其他好文 时间:
2017-01-10 17:12:24
阅读次数:
6426
阅读目录: 1.背景 两年前有机会接触过elasticsearch,但是未做深入学习,只是工作中用到了。越来越发现es是个不错的好东西,所以花了点时间好好学习了下。在学习过程中也发现了一些问题,网上大多资料都很零散,大部分都是实验性的demo,很多问题并没有讲清楚也并没有系统的讲完整一整套方案,所以 ...
分类:
其他好文 时间:
2017-01-09 17:50:42
阅读次数:
366
原文链接:http://jingyan.baidu.com/article/48206aead42b53216bd6b372.html ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。 最近工作需要,然后就研究 ...
分类:
其他好文 时间:
2017-01-09 12:44:18
阅读次数:
195