【单倍型理解及计算系列之三】怎么确定单倍型以及软件参数
问题:简单说明下LDblock,检测单倍型的原理
简化:核心思想是统计上的连锁不平衡,基于SNP之间的LD值来划分区块。可能的步骤包括计算SNP之间的LD值,确定区块的边界,然后合并相邻的高LD区域形成最终的LD block。
LD block的检测和单倍型的推断是两个相关但不同的过程。LD block是确定基因组中的高LD区域,而单倍型则是在这些区域内确定具体的SNP组合。
Deepseek:
LD Block检测单倍型的原理
LD Block(连锁不平衡区块)的检测基于基因组中SNP(单核苷酸多态性)之间的连锁不平衡(Linkage Disequilibrium, LD)程度,通过以下步骤识别单倍型区域:
1. 核心思想
连锁不平衡(LD):指不同位点的等位基因在群体中非随机组合的现象。高LD区域内的SNP倾向于共同遗传,形成稳定的单倍型组合。
LD Block工具通过分析SNP之间的LD值,划分基因组中强连锁的连续区域(即LD Block),并推断这些区块内的单倍型模式。
2. 关键步骤
(1) 计算SNP之间的LD值
- LD度量指标:常用 D’(标准化后的连锁不平衡系数)或 r²(等位基因频率的相关性)。
- D’:范围 0~1,值越接近1,连锁越强。
- r²:范围 0~1,值越接近1,SNP间预测能力越强。
- 示例:若SNP A和B的D’=0.95,说明它们在群体中几乎总是共同出现。
(2) 确定LD Block边界
- 贪心算法:
- 从第一个SNP开始,逐步向右扩展,计算相邻SNP的LD值。
- 当连续SNP的LD值低于阈值(如D’ < 0.8或r² < 0.8),标记为区块终点。
- 重复直到覆盖所有区域。
- 聚类算法:
将高LD的SNP聚为一类,通过统计检验(如似然比)确定最优区块划分。
(3) 推断单倍型
- 单倍型分型:
在LD Block内,通过统计方法(如EM算法或隐马尔可夫模型)推断群体中常见的单倍型组合。- 示例:某区块内SNP组合可能主要有两种单倍型:
A-T-C-G
和G-C-T-A
。
- 示例:某区块内SNP组合可能主要有两种单倍型:
- Tag SNP选择:
选取代表性强(如高LD、高频率)的SNP作为标签,简化后续分析。
3. 可视化与验证
- LD热图:
以三角形热图展示SNP对的LD值,红色表示高LD,蓝色表示低LD(如out.svg
文件)。 - 区块边界检查:
确保算法划分的LD Block与热图中的高LD区域一致,避免误判。
4. 生物学意义
- 功能单元:
LD Block常对应基因组中保守的功能区域(如基因调控区),单倍型可能反映自然选择或适应性进化。 - 群体遗传:
不同群体的LD Block结构差异可揭示群体历史(如瓶颈效应、迁徙事件)。
示例流程
假设分析某基因区域的SNP数据:
- 计算所有相邻SNP对的D’值,发现SNP1~SNP5之间的D’均 >0.9。
- 将这些SNP合并为一个LD Block(如
chr1:1000-5000
)。 - 推断该区块内存在两种主要单倍型:
H1: A-T-G-C
(频率60%)和H2: G-C-A-T
(频率40%)。 - 选择SNP3作为Tag SNP(与区块内其他SNP高度连锁)。
总结
LD Block通过量化SNP间的连锁不平衡,划分基因组中稳定遗传的区域,并推断单倍型组合。其本质是利用群体遗传规律,简化复杂基因组数据,为疾病关联分析、进化研究等提供关键依据。
问题:单倍型计算软件
示例 LDBlockShow
// An highlighted block# 先转换为输入文件Vcf格式
plink --allow-extra-chr --file bestqc --recode vcf-iid --out test --chr-set 50 # 检测单倍型:如指定计算区域(显著位点上下游扩200Kb得到候选区间)
LDBlockShow-1.40/bin/LDBlockShow -InVCF test.vcf -OutPut out -Region 1:48464:5639101# 可选参数
LDBlockShow-1.40/bin/LDBlockShow -InVCF test.vcf -OutPut out1 -Region 5:38070673:39104739 -SeleVar 1 -BlockType 2
-SeleVar:选择每个单倍型块内最具代表性的标签 SNP(Tag SNP)选择策略的参数。其核心功能是通过特定算法从单倍型块中筛选出最具代表性的 SNP。如maf值最大/最强连锁不平衡(如最高R2)
-BlockType 2:划分单倍型块# 检测单倍型svg转换为png/pdf
LDBlockShow-1.40/bin/svg_kit/svg2xxx.pl out.svg -t png
- 结果文件
out.blocks.gz
out.site.gz
out.svg + out.png
out.TriangleV.gz
# out.blocks.gzCHR BP1 BP2 KB NSNPS SNPS1 48464 194819 146.356 4 48464|100422|190247|1948191 781592 783016 1.425 2 781592|7830161 5272334 5283920 11.587 2 5272334|52839201 5624821 5639101 14.281 2 5624821|5639101
# 加SeleVar参数后输出格式 out.blocks.gz
chr Start End SNPNumber TagSNPList
5 38083018 38094381 8 38083018,38088995
5 38094733 38095737 2 38094733# out.site.gz
1 48464
1 100422# out.TriangleV.gz
out.png
颜色越红的标记,可以构建成一个单倍型块,如黑框标记的地方