数天前,百度站长平台发布“正确理解索引量工具”一文,称索引量仅指被百度搜索引擎建立了索引的网页总量,表示网站中有多少页面可以作为搜索候选结果,不同网页因内容重要性、稀缺性不同,被展现的几率有很大差别。换句话说,既使你的网站有1亿个网页被建立索引,也许真正能获得流量的仅有100个页面。 该文章一经发布...
分类:
Web程序 时间:
2014-06-26 22:47:22
阅读次数:
397
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词以下介绍4款开源中文分词系统。1、ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理...
分类:
其他好文 时间:
2014-06-26 22:35:29
阅读次数:
298
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。 我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望...
分类:
其他好文 时间:
2014-06-26 12:33:39
阅读次数:
197
Rewrite 主要的功能就是实现 URL 的重写,通过重写 URL 实现静态化(当然这是伪静态), 这样做的目的是便于搜索引擎和用户的理解,以提高搜索引擎的收录数量。...
分类:
其他好文 时间:
2014-06-26 12:04:49
阅读次数:
324
垂直搜索引擎研发经验总结
什么是垂直搜索引擎?
垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所需要的数据,再进行二次处理和索引,最后根据用户提交的请求,返回搜索结果。
与普通的网页搜索引擎相比,它们最大的区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结...
分类:
其他好文 时间:
2014-06-26 07:38:14
阅读次数:
294
Elasticsearch本身是沒有安全性的功能, 我們得透過plugin來安裝, 這次我選擇了elasticsearch-jetty,此外也有人用nginx反向代理來進行控制.首先我們得先注意到Elasticsearch與Jetty Plugin的版本號對應, 在這裡可以查看, 如果版本號沒對應上...
分类:
其他好文 时间:
2014-06-25 15:46:44
阅读次数:
231
trie -- suffix tree -- suffix automa 有这么一些应用场景:
即时响应用户输入的AJAX搜索框时, 显示候选列表。
搜索引擎的关键字个数统计。
后缀树(Suffix Tree): 从根到叶子表示一个后缀。
仅仅从这一个简单的描述,我们可以概念上解决下面的几个问题:
P:查找字符串o是否在字符串S中
A:若o在S中,则o必然是S的某个后缀...
分类:
其他好文 时间:
2014-06-25 08:47:36
阅读次数:
165
DownloadadninstallthePublicSigningKeyrpm--importhttp://packages.elasticsearch.org/GPG-KEY-elasticsearchAddthefollowinginyour/etc/yum.repos.d/directory
inafilenamed(forexample)elasticsearch.repo[elasticsearch-1.2]
name=Elasticsearchrepositoryfor1.2.xpackages..
分类:
其他好文 时间:
2014-06-25 06:04:21
阅读次数:
308
W3Cschool上是这样说明的:
元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。
标签位于文档的头部,不包含任何内容。 标签的属性定义了与文档相关联的名称/值对。
HTML 与 XHTML 之间的差异
在 HTML 中, 标签没有结束标签。
在 XHTML 中, 标签必须被正确地关闭。
提示和注释:
注释: 标签永...
分类:
Web程序 时间:
2014-06-22 17:22:53
阅读次数:
228
elasticsearch Faceted search Multi tenancy Geo spatial search...
分类:
其他好文 时间:
2014-06-22 06:37:41
阅读次数:
245