如何设计抽样算法,使得相邻两次的抽样碰撞率尽可能的低
既然你说到碰撞率,那假设每次从大小为n的样本空间里面抽取k个样本。要使碰撞率低,那就应该保证每个样本被抽到的概率相等。
所以可以用蓄水池算法:
先拿出k个元素,放入set A; 然后从i = k+1个开始到n,以k/i的概率决定它是不是跟A里随机一个元素替换。这样每个元素被抽到的概率都是k/n。
证明什么的网上肯定有。
所以可以用蓄水池算法:
先拿出k个元素,放入set A; 然后从i = k+1个开始到n,以k/i的概率决定它是不是跟A里随机一个元素替换。这样每个元素被抽到的概率都是k/n。
证明什么的网上肯定有。