码迷,mamicode.com
首页 >  
搜索关键字:搜索引擎 elasticsearch    ( 9560个结果
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
【搜索引擎Jediael开发笔记1】搜索引擎初步介绍及网络爬虫
详细可参考 (1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》 (2)【搜索引擎基础知识1】搜索引擎的技术架构  (3)【搜索引擎基础知识2】网络爬虫的介绍 1、...
分类:其他好文   时间:2014-05-26 05:45:24    阅读次数:266
i标签和em标签的区别
很多人以为i标签和em标签都只是HTML用于斜体的标签,并不知道他们有什么区别。其实对于熟悉SEO的人来说,他们的区别挺大的(普通用户略过)。i标签的作用:仅仅是为了让字体显示斜体,对于SEO没什么作用。em标签的作用:不仅可以让字体显示斜体,而且可以加强语气,告诉搜索引擎这里是重要的。
分类:其他好文   时间:2014-05-26 05:44:51    阅读次数:254
【搜索引擎基础知识2】网络爬虫
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。 1. 网络爬虫本质就是浏览器http请求。      浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:       1)首先, 客户端程序连接到域名系统...
分类:其他好文   时间:2014-05-26 05:26:52    阅读次数:358
网站权重对于网站的重要性
你要好好的思考,及其在百度更接近完美的时候就更要做好这些,其实这些都是影响用户体会的要素。一个成功的网站可以说它在收取利益的同时也在帮助用户。现在说说网站权重有何重要性呢?其实搜索引擎给网站(包含页面)赋予一定的威望值,对网站(含页面)威望的评价,一个网站权重越高,在搜索引擎所占的价值成分就越好,在搜索引擎排行就越好。一个网站在搜索引擎中的权重是件非常艰难的工作,因为种种要素的搅扰,影响了咱们正确...
分类:Web程序   时间:2014-05-26 04:42:45    阅读次数:307
【搜索引擎基础知识3】搜索引擎相关开源项目及网站
部分内容转自:http://blog.csdn.net/hguisu/article/details/8024799 一、 开源项目 1.Lucene全文检索系统       http://lucene.apache.org和 http://www.lucene.com.cn/       Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代...
分类:Web程序   时间:2014-05-26 04:36:55    阅读次数:297
SEO基础知识_绝密教程
  第一次接触SEO,请阅读本基础指南入门,也可以注册论坛:从一句话入门SEO开始 已经意识到SEO的重要性,渴望系统掌握并与行业精英们深入交流你可以:加入SEOWHY成为VIP会员 什么是SEO,SEO是什么意思? SEO的中文意思是搜索引擎优化。通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你...
分类:其他好文   时间:2014-05-24 22:22:21    阅读次数:406
【搜索引擎基础知识1】搜索引擎基本架构
(一)搜索引擎的开发一般可分为以下三大部分 1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi 2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene 3、视图层:也用户的交互界面,如一个网站的首页 其基本架构可参考下图:...
分类:其他好文   时间:2014-05-24 22:20:16    阅读次数:349
重要网络资源地址
【A JAVA】 【B JavaEE】 【C Android】 【D 前端】 【E 大数据】 【F Oracle】 【G 云计算】 【H Linux】 【I 计算机基础】 【J PM ITIL SOA】 【K Others】 【S 搜索引擎】 【Z 方法、人文】...
分类:其他好文   时间:2014-05-24 21:44:27    阅读次数:287
ElasticSearch远程任意代码执行漏洞(CVE-2014-3120)分析
原理 这个漏洞实际上非常简单,ElasticSearch有脚本执行(scripting)的功能,可以很方便地对查询出来的数据再加工处理。 ElasticSearch用的脚本引擎是MVEL,这个引擎没有做任何的防护,或者沙盒包装,所以直接可以执行任意代码。 而在ElasticSearch里,默认配置是打开动态脚本功能的,因此用户可以直接通过http请求,执行任意代码。 其实官方是清楚这个漏洞...
分类:其他好文   时间:2014-05-24 18:04:15    阅读次数:223
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!