用O(nlgk)时间查找k分位数(所谓k分位数:将n个元素分成k个大小相等的集合的k-1个顺序统计量)


相关问题:

The kth quantiles of an n-element set are the k  1 order statistics that divide the sorted set into k equal-sized sets (to within 1). Give an O.n lg k/-time algorithm to list the kth quantiles of a set.

对一个含有n个元素的集合来说,所谓k分位数(the kth quantile),就是能把已排序的集合分成k个大小相等的集合的k-1个顺序统计量。给出一个能输出某一集合的这k-1个顺序统计量的O(nlgk)时间的算法。

思考过程:

      开始我的想法是,既然是已排序的集合,那么我就写一个循环for(i=n/k;i<n;i+=n/k) cout<<A[i]<<" " n/k代表k个集合中的每个集合大小为n/k个元素。每隔n/k个元素就输出一个数,这样循环k-1次就输出了k-1和顺序统计量也就是k分位数。这样时间复杂度就是O(k),显然比O(nlgk)小,但是题目又要求给出O(nlgk)的算法。我想这可能是翻译有误,”sorted“在这句话里翻译成“已排序”是否妥当?,如果改成原数组初始未排序。那么如果还按照刚才的算法,明显不能求出。然后我就想出另外一个超级简单的算法。利用书中9.3节给出的线性时间求第i小元素的函数SELECT。还是for(i=n/k;i<n;i+=n/k)循环里面循环调用SELECT函数求出第n/k,第2n/k,....第(n-1)n/k小元素不就求出了k分位数?但是仔细研究下其中的时间复杂度发现 O((k-1)n)明显要比O(nlgk)大,所以此算法不可取。

      最后正确的算法是利用类似二分法进行查找选择。为什么说是类似二分法呢? 因为传统的二分法是一直取一半进行划分,而这里的近似二分法是k=偶数时,当然就是原来的二分法。而k=奇数时,选择近似二分法,就是选取k/2附近的整数进行划分。比如k=7,那么k/2=3.5 所以递归的低区就是k=3等分,高区就是k=4等分。这样可以看成一颗递归树,从根到叶子是一个不断递归找k等分直到到叶子这一层找到全部的k-1个顺序统计量为止。次递归树的高度是2^h=k => h=lgk.而树的每层都经过了最多O(n)时间的SELECT函数的查找,所以总的时间就是O(nlgk)。

代码如下:

#include <iostream>
#include <time.h>
using namespace std;
const n=16;//想取多少个元素可自己调整。
int t;
//创建一个装有数组A以每5个元素为1组共n/5组,每组的中位数放入到数组B中,组成一组含有n/5个中位数的数组B
int Find(int A[n],int p,int r);//递归当前数组A中从p到r个元素,以找到辅助中位数数组B的中位数。
int PARTITION(int A[],int p,int r,int t)//t代表中位数数组B中的中位数,这里t代表为主元。
{
    int i=p-1,k=0;
    for (int j=p;j<=r;j++)
    {
        if (A[j]<t)//将比主元t大的元素交换到数组A的右边去,比主元t小的到数组A的左边。
        {
            i++;
            swap(A[i],A[j]);
        }
        if (A[j]==t)//如果A[j]等于主元
        {
            k=j;//那么记录下主元在A中的位置。
        }
    }
    swap(A[i+1],A[k]);//完成划分操作,主元左边的元素都小于主元,主元右边的元素都大于主元。
    return i+1;
}
int SELECT(int A[],int p,int r,int i)//i表示第i小的数。
{
    if (p>=r)
    {
        return A[p];
    }
    int t=Find(A,p,r);//返回的t代表辅助数组B的中位数。    
    int q=PARTITION(A,p,r,t);
    int k=q-p+1;
    if (i==k)
    {
        return A[q];
    }
    else if(i<k)
    {
        return SELECT(A,p,q-1,i);
    }
    else return SELECT(A,q+1,r,i-k);
}
int Find(int A[n],int p,int r)
{    
    int key=0,t=0,m=r-p+1,h=0;
    if (m%5==0)//如果当前数组A的大小能被5整除,那么这以5个元素为一组的m/5组数,没有余数那一组
    {
        h=m/5;
    }
    else//否则,应该加上含有余数的那一组。
    {
        h=m/5+1;
     }
    int *B=new int[h];
    for(int j=0;j<h;j++)
    {
        B[j]=0;
    }
    for (int k=0;k<h;k++)//5个数一组,共h组。进行插入排序。
    {//经过最多h=n/5+1次循环,那么总共循环了25h=25(n/5+1)=5n+25=O(n)次
        for (int j=t+1+p;j<=5+t+p&&j!=r+2;j++)//h组中每组进行插入排序。注意加上数组初始坐标p(当前数组A的初值坐标)+t(在p基础上每5个为1组)
        {//运行时间分析:5个一组运行插入排序,每次插入排序需要的时间是O(n^2)=5^2=25是基于固定划分的固定常数
            key=A[j-1];
            int i=j-1;
            while (i>t+p&&A[i-1]<key)
            {
                A[i]=A[i-1];
                i=i-1;
            }
            A[i]=key;
        }
        t+=5;//进入下一个5个元素为一组的插入排序
    }
    k=0;
    for (int i=0;i<h&&k<h;i++)//经过最多h=n/5+1次循环(O(n)),将当前数组A中的每组的中位数依次放入到B中
    {
        if (i<h-1)
        {
            B[k]=A[2+5*i+p];
            k++;
            continue;
        }
        if(m%5!=0)
        {
            B[k]=A[5*i+p+(m%5)/2];
        }
        else 
        {
            B[k]=A[2+5*i+p];
            k++;
        }
    }
    if (h==1)
    {
       return B[0];//当辅助数组B只剩下一个数时,那么这个数就是中位数的中位数。
    }
    else
    {
       return SELECT(B,0,h-1,(h-1)/2+1);//如果数组B元素个数是偶数,那么取数组B中的较小值。
    }
}
void The_kth_quantile(int A[],int B[],int p,int r,int k)//k代表要分成多少元素个数相等的集合。
{
    static j=0;
    if (r-p+1>t)//这k个集合中每个集合有n/k个元素。
    {
        if (k%2!=0)//奇等分时。
        {  
            int i=((r-p+1)/k)*((k-1)/2);//对当前数组进行近似二分法,例如k=5 2:3 i=2n/5 n=r-p+1
            int h=SELECT(A,p,r,i);//第i小元素就是数组中A[i-1]
            B[j]=h;j++;
            The_kth_quantile(A,B,p,i-1+p,(k-1)/2);
            The_kth_quantile(A,B,i+p,r,(k+1)/2);
        }
        else//偶等分时。
        {
            int i=((r-p+1)/k)*(k/2);//对当前数组进行二分法
            int h=SELECT(A,p,r,i);
            B[j]=h;j++;
            The_kth_quantile(A,B,p,i-1+p,k/2);
            The_kth_quantile(A,B,i+p,r,k/2);
        }
    }
}
void main() 
{
    int k=0;
    int A[n]={0};
    //随机输入数组
    srand( (unsigned)time( NULL ) );
    cout<<"原数组:"<<endl;
    for (int i=0;i<n;i++)
    {
        A[i]=rand()%100;
        cout<<A[i]<<"\t";
    }
    cout<<endl;
    cout<<"请输入需要划分的k等份=";
    cin>>k;
    cout<<endl;
    int*B=new int[k+1];
    for (i=0;i<k+1;i++)
    {
        B[i]=0;
    }
    t=n/k;
    if (n%k)
    {
        cout<<"不存在k分位数!"<<endl;
    }
    else
    {
        The_kth_quantile(A,B,0,n-1,k);
    }
    for (i=0;i<k-1;i++)
    {
        cout<<B[i]<<" ";
    }
    cout<<endl;
}




相关内容