Trie/前缀树/字典树 Trie (发音为 "try") 或前缀树是一种树数据结构,用于检索字符串数据集中的键。 一种树形结构,是一种哈希树的变种。 典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。 优点:利用字符串的公共前缀来减少查询时间, ...
分类:
其他好文 时间:
2020-03-29 01:29:15
阅读次数:
54
最近项目组安排了一个任务,项目中用到了基于 Solr 的全文搜索,但是该 Solr 搜索云项目不稳定,经常查询不出来数据,需要手动全量同步。 而且它还是其他团队在维护,依赖性太强,导致 Solr 服务一出问题,我们的项目也基本瘫痪,因为所有的依赖查询都无结果数据了。 所以考虑开发一个适配层,如果 S ...
分类:
其他好文 时间:
2020-03-29 01:08:03
阅读次数:
138
RxJs中提供了n种operators来支持并发,譬如map, mergeAll, switchMap等等。具体可以查看rxjs的官方文档或者搜索引擎。然而,现实中比较常见的并发请求,是需要只针对出错的需求进行重新计算。 场景一,多文件上传时,为了缩短客户端的响应时间,需要并发上传请求。同时,对其中 ...
分类:
Web程序 时间:
2020-03-28 21:51:42
阅读次数:
263
原理 使用filebeat来上传日志数据,logstash进行日志收集与处理,elasticsearch作为日志存储与搜索引擎,最后使用kibana展现日志的可视化输出。所以不难发现,日志解析主要还是logstash做的事情。 从上图中可以看到,logstash主要包含三大模块: INPUTS: 收 ...
分类:
其他好文 时间:
2020-03-27 11:07:58
阅读次数:
212
【原题】 1237:求排列的逆序数 时间限制: 1000 ms 内存限制: 65536 KB 提交数: 4401 通过数: 1739 【题目描述】 在Internet上的搜索引擎经常需要对信息进行比较,比如可以通过某个人对一些事物的排名来估计他(或她)对各种不同信息的兴趣,从而实现个性化的服务。 对 ...
分类:
其他好文 时间:
2020-03-26 21:53:58
阅读次数:
215
无论是垂直搜索,还是通用搜索引擎,对外提供搜索服务其压力都比较大,经常有垂直电商在做活动的时候服务器宕机。对面访问压力比较大的情况,一般的应对方法就是【集群】+【负载均衡】。Solr提供了两种解决方案来对应访问压力。其一是Replication,其一是SolrCloud。 Replication采用 ...
分类:
其他好文 时间:
2020-03-26 12:23:10
阅读次数:
76
PYTHON是一门动态解释性的强类型定义语言:编写时无需定义变量类型;运行时变量类型强制固定;无需编译,在解释器环境直接运行。 动态和静态 强类型和弱类型 优点: 1. Python的定位是“优雅”、“明确”、“简单”,所以Python程序看上去总是简单易懂,初学者学Python,不但入门容易,而且 ...
分类:
编程语言 时间:
2020-03-25 01:23:51
阅读次数:
94
我的第一个网页 <!DOCTYPE html> <html lang="zh-CN"> <head> <meta charset="UTF-8"> <title>我的第一个网页</title> </head> <body> 欢迎访问我的网页! </body> </html> HTML文档类型 目前常 ...
分类:
Web程序 时间:
2020-03-24 12:57:27
阅读次数:
84
记录一下在用python爬取百度链接中遇到的坑: 1.获取百度搜索页面中的域名URL BeautifulSoup获取a标签中href属性后,链接为百度url,利用request直接访问默认会直接进行跳转,无法获取所需域名 此时需要将requests的allow_redirects属性设置为False ...
分类:
编程语言 时间:
2020-03-23 13:50:02
阅读次数:
82
什么是全文检索? 计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式什么是Lucene? Lucene 是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会 ...
分类:
Web程序 时间:
2020-03-22 14:03:54
阅读次数:
73