垂直搜索引擎研发经验总结什么是垂直搜索引擎? 垂直搜索引擎是针对某一行业的搜索引擎,是搜索引擎的细化和延伸,是对网页库中的某类信息进行一次整合,定向分字段抽取出所须要的数据,再进行二次处理和索引,最后依据用户提交的请求,返回搜索结果。 与普通的网页搜索引擎相比,它们最大的差别是对网页信息进行了结.....
分类:
其他好文 时间:
2014-07-16 23:20:16
阅读次数:
253
在ES裡, 更新documents到index不是一件簡單的事情, 我們得在這裡留個心眼.眾所皆知RESTful風格使用HTTP的動詞來進行所謂的Update, ES也是如此.要注意到ES的更新有兩種方式整個docment更新(取代,覆蓋)根據某個field更新(count += 3, append...
分类:
其他好文 时间:
2014-07-16 23:20:03
阅读次数:
246
头部代码1、标题标签(title标签)在HTML5中标题标签依然存在,其仍然具有不可替代的作用;不过我们看到还有更多的可供搜索引擎识别的代码,我们将改代码的等级微降。2、元标签(meta标签)字符集编码声明标签该标签原本就是搜索引擎必看且首先要看的标签,其他属性都省略唯独留下charset属性能看到...
分类:
Web程序 时间:
2014-07-16 23:09:01
阅读次数:
181
最近在一个PHP项目中对接外部接口涉及到WebService,搜索引擎上相关文章不是很多,找到的大都是引用一个号称很强大的开源软件 NuSOAP(下载地址:http://sourceforge.net/projects/nusoap/),即一些类。文章写描述的环境是PHP 4.3,现在都流行PHP ...
分类:
Web程序 时间:
2014-07-10 13:53:34
阅读次数:
235
世界上已经成型的爬虫软件多达上百种,本文对较为知名及常见的开源爬虫软件进行梳理,按开发语言进行汇总,如下表所示。虽然搜索引擎也有爬虫,但本次我汇总的只是爬虫软件,而非大型、复杂的搜索引擎,因为很多兄弟只是想爬取数据,而非运营一个搜索引擎。开源爬虫汇总表开发语言软件名称软件介绍许可证JavaArach...
分类:
其他好文 时间:
2014-07-10 12:57:25
阅读次数:
489
百度是全球最大的中文搜索引擎,也是在中国地区的主流搜索引擎,有着几亿的搜索用户,可以说得上是互联网上的CCTV,是广大优化团队主要优化对象。百度上有很多应用平台,如知道、文库、百科,都是非常成功的平台,同时也是跟百度搜索引擎结合得很好的平台,虽然百度在做电子商务平台不太理想,但百度本身就是一个电子商...
分类:
其他好文 时间:
2014-06-27 19:20:49
阅读次数:
268
AddtoAny:SubscribeButton让读者方便的订阅你的博客到任何Feed阅读器GoogleXMLSitemaps生成完全兼容各大搜索引擎的Sitemaps/网站地图.BookmarkMe添加社会化书签网站按钮到你的博客文章页面,方便用户收藏和分享.BrokenLinkChecker检查...
分类:
其他好文 时间:
2014-06-27 15:43:29
阅读次数:
130
书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu...
分类:
其他好文 时间:
2014-06-27 12:15:57
阅读次数:
221
一.目的。
在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中使用基于Spider实现了自己的w3cschool_spider,并在items.py中定义了数据结构,
在pipelines.py中实现获得数据的过滤以及保存。
但是以上述方法只能爬取start_url列表中的网页,而网络爬虫如google等搜索引擎...
分类:
Web程序 时间:
2014-06-27 09:37:22
阅读次数:
15554
elasticsearch本身的中文分词插件效果都不理想,手动添加词典可以在一定程度上进行弥补。
经过多次实验发现,mmseg的分词机制采用正向最长匹配算法,例如,针对“小时代”这个单词,其自带的词典中没有包含该词,故当用户搜索小时代时,检索不到任何结果。
在咸鱼老婆的虚心指导下,我终于找到了解决办法。
手动添加该词到mmseg的词库中,有两种方法:
1、将该词加入到自带的某个词典中(非停...
分类:
其他好文 时间:
2014-06-27 09:30:33
阅读次数:
232