如何在很大数量级的数据中（比如1个亿）筛选出前10万个最小值？之七

时间：2015-04-29 14:51:38 阅读：174 评论：0 收藏：0 [点我收藏+]

标签：

数据继续增加，麻烦很多。下面给出一个方案：

void shift(int data[], int i, int length)                       //筛选算法
{
  for(int c; c= i* 2+ 1, c< length; )
    if(c+= c+ 1< length && data[c]< data[c + 1], data[i]<= data[c])
      swap(data[c], data[i]),     i= c;
    else
      break;
}
//----------------------
#define   i1K                 1024
#define   i1M                 i1K* i1K
#define   BlockSize           (100*i1M)
void GetTopK(int sele, int All)
{
  double times[3]= { GetTickCount() };

  int *Data0= new int[sele], *Data1= new int[BlockSize], File0Number;
  String path= "D:\\", name= "inFile.dat";
  //第一步，打开或文件不存在时,做出随机数据文件。
  if(File0Number= open(String(path+ name).c_str(), 0), File0Number== -1)
  {
    File0Number= creat(String(path+ name).c_str(), 2);
    for(int all= All, size= BlockSize; all> 0; all-= size)      //减去做好的
      for(int i= 0; i<= size; i++)
        if(i== size)
          _rtl_write(File0Number, Data1, min(size, all));       //写出一块数据
        else
          Data1[i]= random(BlockSize);                          //得随机数
    lseek(File0Number, 0, SEEK_SET);                            //回文件首
  }
  times[0]= GetTickCount()- times[0];
  times[1]= GetTickCount();
  //第二步，取出数据。
  _rtl_read(File0Number, Data0, sele);
  for(int i= (sele- 2)/ 2; i>= 0; i--)
    shift(Data0, i, sele);                                      //建堆
  for(int i, size= 1; size> 0; )
    for(size= _rtl_read(File0Number, Data1, BlockSize), i= 0; i< size; i++)
      if(Data0[0]> Data1[i])                                    //小值
        Data0[0]= Data1[i],   shift(Data0, 0, sele);            //加小值,再成堆
  times[1]= GetTickCount()- times[1];
  times[2]= GetTickCount();
  //第三步，验证()
  //略
  times[2]= GetTickCount()- times[2];

  delete []Data0;
  delete []Data1;
}

　　它先判断是否有原始数据文件。无则创建并写入随机数据。

再取出sele个数据。建最大堆。继续读出数据块。并逐步挑出最小数。

程序看起来，还是很简单的。但，有两个问题：

1、int 数的表达范围，只有二十亿。程序应该考虑数的表达范围问题了。

2、验证有麻烦：之前，我们①用标准排序与结果比较。②还可用结果中的最大数，与取值后余下的数做比较，要是得到这个最大数都小于或等余下的数，就证明结果是正确的。现在，数太多，没法用标准排序。而取数后的数，还是保留在原始数据中。也就不能用法②。

暂时就这样了。待想出验证办法再说。

如何在很大数量级的数据中（比如1个亿）筛选出前10万个最小值？之七

标签：

原文地址：http://www.cnblogs.com/oldtab/p/4465890.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行