搜索关键字：中文分词最少单词数，搜索到704个结果！码迷,mamicode.com！

数据库定时备份原理，代码

前几篇博客已经相继公开了去转盘网的所有技术细节，如下：百度网盘爬虫中文分词算法邀请好友注册 js分页部分代码这篇博客我将继续公开数据库自动备份的代码。可以这么说，没有数据库，一切就是个蛋，没有数据库备份，一切还是个蛋，你可以想象数据库备份多么重要。不会linux，不会写shell的朋友麻烦先 ...

分类：数据库时间：2016-05-22 09:39:12 阅读次数：206

mysql数据库自动备份脚本分享

前几篇博客已经相继公开了去转盘网的所有技术细节，如下：百度网盘爬虫中文分词算法邀请好友注册js分页部分代码这篇博客我将继续公开数据库自动备份的代码。可以这么说，没有数据库，一切就是个蛋，没有数据库备份，一切还是个蛋，你可以想象数据库备份多么重要。不会linux，不..

分类：数据库时间：2016-05-22 00:47:55 阅读次数：262

java中文分词算法

你想知道百度是怎么找到你想要的东西的嘛？百度到底是怎么实现的呢？相信看完这篇博文你会豁然开朗，哦，原来是那样啊~~...

分类：编程语言时间：2016-05-19 15:15:29 阅读次数：186

solr中文分词器IK-analyzer安装

solr本身对中文是不支持的，所以需要下载中文分词器IK-analyzer下载地址https://code.google.com/archive/p/ik-analyzer/downloads。自己本地系统是centos6.7,所以下载了https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ik-analyzer/IK%20An..

分类：其他好文时间：2016-05-17 20:00:17 阅读次数：447

solr5中文分词bug解决

下载 ik分词包地址：http://http://pan.baidu.com/s/1c1RcnAw 1.修改 pom.xml 修改成你使用的版本，保存解压后在工程目录内打开命令窗口输入 mvn -DskipTests clean package 完成后 2.部署项目把生成的jar 放到 s ...

分类：其他好文时间：2016-05-17 19:16:39 阅读次数：318

java+lucene中文分词，来看看百度究竟是怎么找到你想要的（十分重要，楼主幸苦之作）

我想只要是学过数据库的孩纸，不管是mysql，还是sqlsever，一提到查找，本能的想到的便是like关键字，其实去转盘网（分类模式）之前也是采用这种算法，但我可以告诉大家一个很不幸的事情，like匹配其实会浪费大量的有用资源，原因这里不说了请自己想一想，我们还是直接摆事实验..

分类：编程语言时间：2016-05-17 11:49:40 阅读次数：333

java+lucene中文分词，来看看百度究竟是怎么找到你想要的（十分重要，楼主幸苦之作）

我想只要是学过数据库的孩纸，不管是mysql，还是sqlsever，一提到查找，本能的想到的便是like关键字，其实去转盘网（分类模式）之前也是采用这种算法，但我可以告诉大家一个很不幸的事情，like匹配其实会浪费大量的有用资源，原因这里不说了请自己想一想，我们还是直接摆事实验证。现在用去转盘网搜 ...

分类：编程语言时间：2016-05-17 09:55:31 阅读次数：254

[Nutch]Solr配置自定义的中文分词器mmseg4j

上一篇博文我们有使用LUKE工具来查看使用solrindex产生的索引的具体内容，从里面可以看到，默认的分词很乱，所以这篇博文我们就使用mmseg4j中文分词器。1. 下载mmseg4j点击mmseg4j-1.8.5 .zip，进入下载页面。2. 解压mmseg4j-1.8.5.zip将下载的mmseg4j-1.8.5.zip文件放到workspace目录下面，在workspace目录使用如下命令解...

分类：其他好文时间：2016-05-13 03:36:00 阅读次数：255

[Nutch]指定LUKE的分词器

在上一篇博文我们有介绍给Solr配置中文分词器mmseg4j，那么我们在LUKE工具中如何配置对应的中文分词器进行查看呢？本篇博文将详细进行解释。1. 下载中文分词器由于我们使用的luke是4.0版本的，只能使用mmseg4j的1.9.1版本，因为1.8.5的mmseg4j版本与4.0版本的luke有冲突，请点击下载1.9.1版本的mmseg4j-1.9.1.2. luke设置mmseg4j2.1...

分类：其他好文时间：2016-05-12 23:44:31 阅读次数：225

全文索引----中文分词器mmseg4j

通常情况下，我们根据整个字段来索引数据，字段最长时，也不过十个字；但是还有一种情况，如果我们索引的是一篇文章呢？这时候如何处理这个字段，分词器很好的解决了这个问题。...

分类：其他好文时间：2016-05-12 12:34:07 阅读次数：161

共704条上一页 1 ... 43 44 45 46 47 ... 71 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)