拷贝数变异检测算法之CBS算法详解

CBS算法全称为circular binary segmentation,是一种用于检测拷贝数变异的算法,广泛应用于染色体芯片和二代测序数据的分析中。R包DNAcopy即是基于CBS算法实现的。

作为一种简洁而高效的检测方法,CBS算法通过基于双样本的T检验的优化设计,致力于发现拷贝数变异的断点所在区域。对于aCGH检测数据或二代测序数据,其核心任务是将连续区域的log2copyratio数据聚类,形成更大的变异区域。

解析CBS算法,首先需要理解其解决的主要问题:识别基因组上连续区域的拷贝数变异。对于二代测序数据,通过统计比对后的reads数目或平均测序深度,结合GC校正和参照集校正,计算出log2copyratio数值。CBS算法的目标是连接数值相近的区域,识别出拷贝数变异区域。

以单个断点为例,CBS算法在假设两侧数据为正态分布、方差已知的情况下,通过双样本的T检验来确定断点是否具有实际意义。Z检验后,利用蒙特卡洛算法计算P值,评估断点的显著性。

然而,单一断点处理方法无法应对中间存在拷贝数变异的长片段问题。因此,CBS算法需要针对多断点场景进行调整。算法遍历连续区域,比较不同区域间的log2copyratio差异,通过计算Z值来识别变异区域,随后利用蒙特卡洛方法计算P值。

默认数据正态分布的假设下,CBS算法采用蒙特卡洛法计算P值。对于非正态分布数据,算法可扩展至使用排列组合方法计算P值。找到最大Z值的区域后,通过随机排列整段区域数据(如10000次),计算Z值,统计超过最大Z值的次数,得到P值。

当前DNAcopy包中的CBS算法在基础版本上进一步优化了计算速度,特别是P值计算方法。优化后的算法更高效地识别拷贝数变异,提升了分析效率。