详细可参考
(1)书箱:《这就是搜索引擎》《自己动手写网络爬虫》《解密搜索引擎打桩实践》
(2)【搜索引擎基础知识1】搜索引擎的技术架构
(3)【搜索引擎基础知识2】网络爬虫的介绍
1、...
分类:
其他好文 时间:
2014-05-26 05:45:24
阅读次数:
266
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
1. 网络爬虫本质就是浏览器http请求。
浏览器和网络爬虫是两种不同的网络客户端,都以相同的方式来获取网页:
1)首先, 客户端程序连接到域名系统...
分类:
其他好文 时间:
2014-05-26 05:26:52
阅读次数:
358
1.已经实现动态读取地图资源,地图信息记录在excel表格。如果要增加地图,编辑excel后导入至CocoStudio数据编辑器,然后导出成Json文件,放到项目的Resource目录下。
2.SGFight.cpp中的initMap函数的第二个参数就是地图的索引,修改它的值就能实现加载不同副本的效果
测试地图1
测试地图2
2.武将信息也保存在ex...
分类:
其他好文 时间:
2014-05-26 05:08:05
阅读次数:
234
最近项目在做网站用户数据新访客统计,数据存储在MongoDB中,统计的数据其实也并不是很大,1000W上下,但是公司只配给我4G内存的电脑,让我程序跑起来气喘吁吁...很是疲惫不堪。
最常见的问题莫过于查询MongoDB内存溢出,没办法只能分页查询。这种思想大家可能都会想到,但是如何分页,确实多有门道!
网上用的最多的,也是最常见的分页采用的是skip+limit这种组合方式,...
分类:
数据库 时间:
2014-05-26 04:13:29
阅读次数:
399
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。
想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:
其他好文 时间:
2014-05-25 01:46:44
阅读次数:
246
在Solr中有的时候,我们并不只是需要一种形式的索引文件,可能需要多种不同数据的索引文件,这时我们就可以在同一个Solr下面创建
多核。...
分类:
其他好文 时间:
2014-05-24 23:13:06
阅读次数:
238
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
排序(二)
以上排序算法都有一个性质:在排序的最终结果中,各元素的次序依赖于它们之间的比较。我们把这类排序算法称为比较排序。
任何比较排序的时间复杂度的下界是nlgn。
以下排序算法是用运算而不是比较来确定排序顺序的。因此下界nlgn对它们是不适用的。
键索引计数法(计数排序)
计数排序假设n个输入元素中的每一个都是在0到k区间的一个整数,其中k为某个整数...
分类:
其他好文 时间:
2014-05-24 20:26:16
阅读次数:
273
排序(一)
初级排序算法
选择排序
思想:首先,找到数组中最小的那个元素。其次,将它和数组的第一个元素交换位置。再次,在剩下的元素中找到最小的元素,将它与数组的第二个元素交换位置。如此往复,直到将整个数组排序。
【图例】
图中,x轴方向为数组的索引,y轴方向为待排序元素的值。
选择排序有两个很鲜明的特点:
运行时间和输入无关。为了找出最小的元素...
分类:
其他好文 时间:
2014-05-24 18:18:30
阅读次数:
492
一、常见操作
1、复制表结构create table t2 like t1
复制表数据insert into t2 select * from t1
2、mysql索引
alter table用来创建普通索引、unique索引或primary key索引
alter table t add index index_name(column_list)
al...
分类:
数据库 时间:
2014-05-24 14:43:02
阅读次数:
363