动物驯化及群体历史
等位基因频谱-SFS
∂a∂i:使用扩散近似法(diffusion approximation)来推断最多3个群体的种群大小变化、种群分化及迁移率等历史事件;Fastsimcoal2:使用复合似然值(composite likelihood)来推断群体演化历程。- 两者对于少于 4 个群体的历史推测有着相似的运算效率,但当群体数超过 3 个时,只能利用
Fastsimcoal2进行计算。计算过程中,∂a∂i与Fastsimcoal2都需要从高质量且独立的位点获得群体之间的频谱信息:即在计算SFS之前,必须要去掉变异位点之间的连锁不平衡,且尽可能利用高覆盖度高质量的全基因组,测序数据去生成 SFS。
SFS 的方法需要用户提供可靠的先验模型才能得到具有生物学意义的结果。但在很多情况下,研究者并没有这样一个可靠的先验模型,所以大多数用户都会结合群体遗传结构分析的结果选择多个可能的模型分别进行计算,而且每个模型需要进行多次的bootstrap 并通过比较似然值来提高结果的准确性(似然值越大,所得到的参数越贴近实际数据)。不同模型之间,可以通过赤池信息量准则(Akaike Information Criterion, AIC)和贝叶斯信息准则(Bayesian Information Criterion, BIC)综合考虑自由参数与似然值进而选择最佳的模型。
针对每一个分离位点,如果我们不知道哪一个碱基是祖系状态,哪一个是后天得到的,那么这个时候 我们可以用MAF来描述,也就是“少数等位基因”频率。MAF的范围在1/n - 0.5之间。它也被称为site frequency spectrum(SFS)。因为不能确定祖系状态,只能在“少数等位基因”,因而也被称为folded spectrum.
如果我们通过其他物种的基因组推测出了每一个位点的祖系状态,这个时候就可以用derived allele frequency(DAF)来表示位点变异情况,DAF的范围在1/n 到 (n-1)/n之间,相对应的,也被称为unfolded spectrum
在基因组数据分析中,我们在不知道祖系状态的情况下,通常将MAF<0.05的位点舍弃,因为这可能是测序错误或者有害突变,并不一定代表基因的多态性。但是这也有可能包含了DAF>0.95的位点,也就是会丢失掉很多进化上很重要的位点。
群体历史模拟中最优模型选择准则
今天我们所观察到的基因组遗传变异是一系列复杂演化过程的产物,不仅受突变、随机漂变、选择(自然选择、人工选择)、重组等的影响,也与参考基因组的组装质量及遗传变异的质量有关。在诸多的影响因素下,为了能够更精确的完成群体之间的溯祖,我们需要结合多方面的分析结果来确认一个最稳健的进化模型,包括群体遗传分析(系统发育树分析,主成分分析,聚类分析,连锁不平衡分析及群体遗传参数统计等)、不依赖先验模型的分析(PSMC、SMC++和 MSMC)及模拟分析(ms、Ma CS)等。