详细可参考
(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》
(2)【搜索引擎基础知识1】搜索引擎的技术架构
(3)【搜索引擎基础知识2】网络爬虫的介绍
1、...
分类:
其他好文 时间:
2014-05-26 05:45:24
阅读次数:
266
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
1.已经实现动态读取地图资源,地图信息记录在excel表格。如果要增加地图,编辑excel后导入至CocoStudio数据编辑器,然后导出成Json文件,放到项目的Resource目录下。
2.SGFight.cpp中的initMap函数的第二个参数就是地图的索引,修改它的值就能实现加载不同副本的效果
测试地图1
测试地图2
2.武将信息也保存在ex...
分类:
其他好文 时间:
2014-05-26 05:08:05
阅读次数:
234
基础练习 Huffuman树
时间限制:1.0s 内存限制:512.0MB
问题描述
Huffman树在编码中有着广泛的应用。在这里,我们只关心Huffman树的构造过程。
给出一列数{pi}={p0, p1, …, pn-1},用这列数构造Huffman树的过程如下:
1. 找到{pi}中最小的两个数,设为pa和pb,将pa和pb从{pi}中...
分类:
其他好文 时间:
2014-05-26 03:39:18
阅读次数:
200
Java是最流行的编程语言之一,但似乎并没有人喜欢使用它。好吧,实际上Java是一门还不错的编程语言,由于最近Java 8发布了,我决定来编辑一个如何能更好地使用Java的列表,这里面包括一些库,实践技巧以及工具。
这篇文章在GitHub上也有。你可以随时在上面贡献或者添加你自己的Java使用技巧或者最佳实践。
编码风格
结构体
builder模式
依赖注入避免nul...
分类:
编程语言 时间:
2014-05-25 00:54:03
阅读次数:
427
在Solr中有的时候,我们并不只是需要一种形式的索引文件,可能需要多种不同数据的索引文件,这时我们就可以在同一个Solr下面创建
多核。...
分类:
其他好文 时间:
2014-05-24 23:13:06
阅读次数:
238
本文是本人在学习网络视频springMVC的过程中的学习笔记。
本文讲述springMVC上传文件的功能。
我从使用的角度一步一步来。
在前台界面的使用
jsp编码
上传
上传
...
分类:
编程语言 时间:
2014-05-24 23:12:05
阅读次数:
340
第一次接触SEO,请阅读本基础指南入门,也可以注册论坛:从一句话入门SEO开始 已经意识到SEO的重要性,渴望系统掌握并与行业精英们深入交流你可以:加入SEOWHY成为VIP会员
什么是SEO,SEO是什么意思?
SEO的中文意思是搜索引擎优化。通俗理解是:通过总结搜索引擎的排名规律,对网站进行合理优化,使你...
分类:
其他好文 时间:
2014-05-24 22:22:21
阅读次数:
406
CREATE INDEX 语句
CREATE INDEX 语句用于在表中创建索引。
在不读取整个表的情况下,索引使数据库应用程序可以更快地查找数据。
索引
您可以在表中创建索引,以便更加快速高效地查询数据。
用户无法看到索引,它们只能被用来加速搜索/查询。
注释:更新一个包含索引的表需要比更新一个没有索引的表花费更多的时间,这是由于索引本身也需要更新。因此,理想...
分类:
数据库 时间:
2014-05-24 22:21:22
阅读次数:
377
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349