如何在更大量的数据中以随机顺序分发少量数据?
例如,我有几千行"真实"数据,我想在整个"真实"数据中以随机顺序插入十二行或两行控制数据.
现在我不是想问如何使用随机数生成器,我问一个统计问题,我知道如何生成随机数,但我的问题是我如何确保这个数据是以随机顺序插入的同时在文件中相当均匀地分散.
如果我只依赖于生成随机数,则有可能(尽管非常小)可以将所有我的控制数据或至少其中的一些数据插入到相当狭窄的"真实"数据中.阻止这种情况发生的最佳方法是什么?
换句话说,我想在整个真实数据中插入控制数据,而没有办法让第三方计算哪些行是控制的,哪些是真实的.
我有3000行'真实'数据(这个数量会随着用户的数据量而在不同运行之间变化).
我有20行"控制"数据(同样,这将根据用户想要使用的控制行数量,从零向上的任何内容而改变).
我现在想要在每150行或插入"真实"数据后大致插入这20个"控制"行(3000/20 = 150).但是我不希望它像那样准确,因为我不希望控制行只是根据它们在输出数据中的位置来识别.
因此,我不介意某些 "控制"行聚集在一起,或者根本没有"控制"行的某些部分,但通常我希望"控制"行在整个数据中相当均匀地分布.