1. 连锁不平衡(Linkage disequilibrium)度量
■ D
Delta=P(AB)-P(A)P(B) (PAB is the expectant frequency of AB haplotype, and P(A)*P(B) is the actual frequency),可以记为Δ。
- Δ值以1—r的速率递减,直到为零(r为两点之间的重组值)。
- 若Δ值为零,则AB完全随机;若Δ值为1,则AB完全关联;若0<Δ<1,则非随机关联,即连锁不平衡。
- 基于D,延伸出D’和R2的概念,因为D大小取决于A和B各自的频率,无法比较不同pair间的D, 故需要标准化
■ D’和r2:
*D’= Standardized D; r=pearson coefficient of correlation
- D’=D/Dmax (Dmax=min(PAPb,PaPB)
- r2 =D/PAPBPa*Pb
D’和r2值为零时,连锁完全平衡;D’和r2值为1时,连锁完全不平衡123456__区别D’和r2__:1. D’变化于-1,+1之间,反映的是两位点之间有无重组事件的发生;如果样本够大,D’=+1或-1,表示两位点之间无重组事件发生(完全连锁);D’=0,表示完全随机重组,(不存在连锁不平衡,即处于遗传平衡);通常情况下,D’接近于1或-1,提示两位点之间存在紧密的连锁关系;D'接近于0,提示两 位点趋向于遗传平衡。2. 需要注意的是:D’对基因频率的变化不敏感,当其中一个位点的一个基因频率比较低的时候,r2比 D’要更可靠一些。3. r2变化于0到1之间,反映两个位点之间的“correlation coefficient”;r2=1,提示两位点将产生完全相同的信息(所以,选择tagSNP时会参考r2);r2=0,提示遗传平衡;同样r2在0到1之间变化与可反映连锁不平衡的程度。4. D’=0.452,如果样本够大,两位点中基因频率没有特别低的话,可根据D’,判断存在连锁关系;5. r2=0.001,如果某一个位点的一个基因频率特别低的话,则依据r2值,判断两位点接近连锁平衡。
|
|
2. 单倍型构建(Haplotype)
LD plot, 把D, D’, R2可视化
■ 根据D’确定Block,构建单倍域(haplotype block)__
- 一段区域内95%以上的SNP间D’值的95%CI在(0.7-0.98)之间,在说明该区域几乎没有发生重组。(Gabriel SB, 2002, The structure of haplotype blocks in the human genome)
■ 根据LOD、r2 对在Block选择tagSNP__
- LOD(log odds score method): 遗传连锁的一种计算,定义为连锁基因的可能性数据与非连锁基因的可能性数据之比率的log10。通常判定连锁关系是以Lod值大小为依据。
- Lod值为0,意味着连锁假设与不连锁假设的可能性相等;Lod值为正值,有利于连锁;Lod值为负值,表示有一定重组率的连锁。
- 显著的域值是+3和-2。当Lod>+1时,表示存在连锁; Lod>+3时(即odd=1000:1),表示肯定连锁, 连锁的概率为95%; Lod<-2时,表示否定连锁.
- 通过LD数据比对,挑选出每个block中r2>0.8,且LOD>3的SNPs,选取平均值最大的一个SNP作为该单倍域标签SNP。有时在同一个单倍域中,SNPs连锁不平衡程度低,不能相互替代,因此全选出作为tagSNP