前几篇博客已经相继公开了去转盘网的所有技术细节,如下: 百度网盘爬虫 中文分词算法 邀请好友注册 js分页部分代码 这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不会写shell的朋友麻烦先 ...
分类:
数据库 时间:
2016-05-22 09:39:12
阅读次数:
206
前几篇博客已经相继公开了去转盘网的所有技术细节,如下:百度网盘爬虫中文分词算法邀请好友注册js分页部分代码这篇博客我将继续公开数据库自动备份的代码。可以这么说,没有数据库,一切就是个蛋,没有数据库备份,一切还是个蛋,你可以想象数据库备份多么重要。不会linux,不..
分类:
数据库 时间:
2016-05-22 00:47:55
阅读次数:
262
你想知道百度是怎么找到你想要的东西的嘛?百度到底是怎么实现的呢?相信看完这篇博文你会豁然开朗,哦,原来是那样啊~~...
分类:
编程语言 时间:
2016-05-19 15:15:29
阅读次数:
186
solr本身对中文是不支持的,所以需要下载中文分词器IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20An..
分类:
其他好文 时间:
2016-05-17 20:00:17
阅读次数:
447
下载 ik分词包 地址:http://http://pan.baidu.com/s/1c1RcnAw 1.修改 pom.xml 修改成你使用的版本,保存 解压后在工程目录内 打开命令窗口 输入 mvn -DskipTests clean package 完成后 2.部署项目 把生成的jar 放到 s ...
分类:
其他好文 时间:
2016-05-17 19:16:39
阅读次数:
318
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验..
分类:
编程语言 时间:
2016-05-17 11:49:40
阅读次数:
333
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like匹配其实会浪费大量的有用资源,原因这里不说了请自己想一想,我们还是直接摆事实验证。 现在用去转盘网搜 ...
分类:
编程语言 时间:
2016-05-17 09:55:31
阅读次数:
254
上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容,从里面可以看到,默认的分词很乱,所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip,进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面,在workspace目录使用如下命令解...
分类:
其他好文 时间:
2016-05-13 03:36:00
阅读次数:
255
在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j,那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢?本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的,只能使用mmseg4j的1.9.1版本,因为1.8.5的mmseg4j版本与4.0版本的luke有冲突,请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...
分类:
其他好文 时间:
2016-05-12 23:44:31
阅读次数:
225
通常情况下,我们根据整个字段来索引数据,字段最长时,也不过十个字;但是还有一种情况,如果我们索引的是一篇文章呢?这时候如何处理这个字段,分词器很好的解决了这个问题。...
分类:
其他好文 时间:
2016-05-12 12:34:07
阅读次数:
161