Insert title here定向数据爬虫和搜索引擎(Directional
Spider)设计(一) ——
元素分析前言页面定向数据抓取目的就是尽可能的抓取在互联网中获取到你感兴趣的数据。因为是定向抓取,同时需要保证对抓取的数据进行数据加工处理,做到对应的数据规范,方便后期检索。
简单的说这个...
分类:
其他好文 时间:
2014-05-26 07:28:45
阅读次数:
225
微博的诞生、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”环境。大数据为BI带来了海量数据。对挖掘来说,大数据量要更容易对比.抢夺大数据市场,需要具备一定的实力,报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数...
分类:
其他好文 时间:
2014-05-26 07:08:41
阅读次数:
221
索引是由Oracle维护的可选结构,为数据提供快速的访问。准确地判断在什么地方需要使用索引是困难的,使用索引有利于调节检索速度。
当建立一个索引时,必须指定用于跟踪的表名以及一个或多个表列。一旦建立了索引,在用户表中建立、更改和删除数据库时,
Oracle就自动地维护索引。创建索引时,下列准则将帮助...
分类:
数据库 时间:
2014-05-26 06:47:42
阅读次数:
363
simhash与重复信息识别在工作学习中,我往往感叹数学奇迹般的解决一些貌似不可能完成的任务,并且十分希望将这种喜悦分享给大家,就好比说:“老婆,出来看上帝”……
随着信息爆炸时代的来临,互联网上充斥着着大量的近重复信息,有效地识别它们是一个很有意义的课题。例如,对于搜索引擎的爬虫系统来说,收录重复...
分类:
其他好文 时间:
2014-05-26 06:38:50
阅读次数:
258
原来的string docvalues使用utf-8编码,加载时转码花费大量时间,我们把转码实现从new String(bytes, "UTF-8")改用lucene的bytesRef.utf8ToString,减少了大约十秒的时间。
想进一步优化,我们使用UTF-16LE编码,解码非常简单甚至只需拷贝,如果用简单的byte[]到char[]转换,可以在节省7秒时间,而如果用unsafe可以节省...
分类:
其他好文 时间:
2014-05-25 01:46:44
阅读次数:
246
排序(二)
以上排序算法都有一个性质:在排序的最终结果中,各元素的次序依赖于它们之间的比较。我们把这类排序算法称为比较排序。
任何比较排序的时间复杂度的下界是nlgn。
以下排序算法是用运算而不是比较来确定排序顺序的。因此下界nlgn对它们是不适用的。
键索引计数法(计数排序)
计数排序假设n个输入元素中的每一个都是在0到k区间的一个整数,其中k为某个整数...
分类:
其他好文 时间:
2014-05-24 20:26:16
阅读次数:
273
排序(一)
初级排序算法
选择排序
思想:首先,找到数组中最小的那个元素。其次,将它和数组的第一个元素交换位置。再次,在剩下的元素中找到最小的元素,将它与数组的第二个元素交换位置。如此往复,直到将整个数组排序。
【图例】
图中,x轴方向为数组的索引,y轴方向为待排序元素的值。
选择排序有两个很鲜明的特点:
运行时间和输入无关。为了找出最小的元素...
分类:
其他好文 时间:
2014-05-24 18:18:30
阅读次数:
492
一、常见操作
1、复制表结构create table t2 like t1
复制表数据insert into t2 select * from t1
2、mysql索引
alter table用来创建普通索引、unique索引或primary key索引
alter table t add index index_name(column_list)
al...
分类:
数据库 时间:
2014-05-24 14:43:02
阅读次数:
363
默认每个连接数占用10M内存ulimit -a 查看stack
sizeMongoDB服务器内存要满足 connection overhead + data size + index
size即连接数开销+热点数据+索引连接数太多的问题:如果在日志中遇到类似如下的错误信息:"too many ope...
分类:
数据库 时间:
2014-05-24 11:18:25
阅读次数:
378
本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。
分类:
其他好文 时间:
2014-05-24 09:33:03
阅读次数:
371