是新朋友吗?记得先点蓝字关注我哦~18年末19年初的北京寒冷异常,网上说是近十年来最冷的冬天。与此相映的,是互联网行业的情况。但酷寒并不能浇灭每个有梦想的互联网人心中的光亮。18年初小诺因没有机会做到热爱的核心策略,离开了那家他心爱的搜索大厂和搜索引擎后,去一家生鲜独角兽公司做数据可视化工作。一年后的19年初,小诺所在部门被新来的一帮人替换,所谓一朝天子一朝臣,原来的人都陆续离开了。小诺呢,一直想
分类:
其他好文 时间:
2020-09-10 22:43:44
阅读次数:
29
搜索引擎三大过程 爬取内容、进行分词、建立倒排索引。 分词器 分词器使用IK,通常为了保证索引时覆盖度和搜索时准确度,索引分词器采用ik_max_word,搜索分析器采用ik_smart模式。可在IK的配置文件中配置自定义的词典、停词词典。 倒排索引 Elasticsearc依赖Lucene建立倒排 ...
分类:
其他好文 时间:
2020-09-07 19:19:25
阅读次数:
60
今天有人说可以利用 html 页面的中 meta 标签来屏蔽搜索引擎蜘蛛的抓取或不让蜘蛛抓取网页中的其它链接,本着好奇的精神,就查了一些相关的资料,发现了一串类似 <meta name='robots' content='noindex,nofollow' /> 这样的HTML代码,可以告诉来网页爬 ...
分类:
Web程序 时间:
2020-09-04 17:26:50
阅读次数:
57
主攻个人数据分布式存储的HDFS的优势在哪?互联网的纪元中,数据就是一切,互联网环境下任何人的一切活动都会在网络中留下属于自己的印迹—数据碎片,这些我们不经意间留下的数据碎片如果被有心人收集、利用起来会对我们个人的兴趣爱好甚至是隐私产生不利的影响。不知道你有没有这样的体验,当你用搜索引擎了解某种商品之后,某些电商平台会给你不断的推送类似的商品,显然这不是巧合而是你的某些数据“出卖”了你的意图。随着
分类:
其他好文 时间:
2020-09-02 16:46:50
阅读次数:
47
上一篇文章ElasticSearch术语中提到了倒排索引,那么这篇文章就来讲解下什么是倒排索引,倒排索引的数据结构以及ElasticSearch中的倒排索引。倒排索引倒排索引(InvertedIndex)也常被称为反向索引,是搜索引擎中非常重要的数据结构,为什么说它重要呢,我们首先拿一本书《重构改善既有代码的设计》举个例子:如果一本书没有目录的话,理论上也是可以读的,只是合上书下次再次阅读的时候,
分类:
其他好文 时间:
2020-08-28 11:58:21
阅读次数:
49
本文主要介绍什么是ElasticSearch以及为什么需要它,如何在本机安装部署ElasticSearch实例,同时会演示安装ElasticSearch插件,以及如何在本地部署多实例集群,方便在日后学习分布式相关原理。什么是ElasticSearch?ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasti
分类:
其他好文 时间:
2020-08-28 11:56:53
阅读次数:
55
1.前言最近很多人私下询问我常用的Java开发技术栈,所以今天就总结一波平常使用的Java技术栈。2.JDKJDK的版本现在大部分转移到了8,超前一点的使用11,请认准LTS版本!不要生产上使用9、10、12、13、14。在OracleJDK和OpenJDK之间推荐使用OpenJDK,避免引起不必要的商业纠纷。AmazonCorretto、AlibabaDragonwell都不错。7以上不用太考虑
分类:
编程语言 时间:
2020-08-24 16:42:47
阅读次数:
55
Canal使用场景 数据库备份更新 搜索引擎索引更新&建立 业务缓存的更新 充当消息组件(订单变更,商品资料变更等) Canal环境部署 搭建Mysql 配置数据库配置文件 增加以下配置信息 log-bin=mysql-bin # 启动binlog日志 binlog-format=ROW # 选择r ...
分类:
数据库 时间:
2020-08-20 19:10:01
阅读次数:
98
如何量化两个字符串之间的相似程度呢?有一个非常著名的量化方法,那就是编辑距离(Edit Distance)。 编辑距离指的就是,将一个字符串转化成另一个字符串,需要的最少编辑操作次数(比如增加一个字符、删除一个字符、替换一个字符)。编辑距离越大,说明两个字符串的相似程度越小;相反,编辑距离就越小,说 ...
分类:
其他好文 时间:
2020-08-18 13:57:08
阅读次数:
65
Linux概述 消息对列(Kafka、RabbitMQ、RockeetMQ),缓存(Redis),搜索引擎(ES) 集群分布式(需要购买多台服务器,如果没服务器我们就只能使用虚拟机) 我们为什么要学Linux Linux的几个优点 免费(这个是大多数人的喜欢的吧) 很多软件原生是在Linux运行的, ...
分类:
系统相关 时间:
2020-08-15 22:35:58
阅读次数:
177