当前位置: 首页 > news >正文

【单倍型理解及计算系列之三】怎么确定单倍型以及软件参数

问题:简单说明下LDblock,检测单倍型的原理

简化:核心思想是统计上的连锁不平衡,基于SNP之间的LD值来划分区块。可能的步骤包括计算SNP之间的LD值,确定区块的边界,然后合并相邻的高LD区域形成最终的LD block。
LD block的检测和单倍型的推断是两个相关但不同的过程。LD block是确定基因组中的高LD区域,而单倍型则是在这些区域内确定具体的SNP组合。
Deepseek:
LD Block检测单倍型的原理
LD Block(连锁不平衡区块)的检测基于基因组中SNP(单核苷酸多态性)之间的连锁不平衡(Linkage Disequilibrium, LD)程度,通过以下步骤识别单倍型区域:


1. 核心思想

连锁不平衡(LD):指不同位点的等位基因在群体中非随机组合的现象。高LD区域内的SNP倾向于共同遗传,形成稳定的单倍型组合。
LD Block工具通过分析SNP之间的LD值,划分基因组中强连锁的连续区域(即LD Block),并推断这些区块内的单倍型模式。


2. 关键步骤

(1) 计算SNP之间的LD值
  • LD度量指标:常用 D’(标准化后的连锁不平衡系数)或 (等位基因频率的相关性)。
    • D’:范围 0~1,值越接近1,连锁越强。
    • :范围 0~1,值越接近1,SNP间预测能力越强。
  • 示例:若SNP A和B的D’=0.95,说明它们在群体中几乎总是共同出现。
(2) 确定LD Block边界
  • 贪心算法
    1. 从第一个SNP开始,逐步向右扩展,计算相邻SNP的LD值。
    2. 当连续SNP的LD值低于阈值(如D’ < 0.8或r² < 0.8),标记为区块终点。
    3. 重复直到覆盖所有区域。
  • 聚类算法
    将高LD的SNP聚为一类,通过统计检验(如似然比)确定最优区块划分。
(3) 推断单倍型
  • 单倍型分型
    在LD Block内,通过统计方法(如EM算法或隐马尔可夫模型)推断群体中常见的单倍型组合。
    • 示例:某区块内SNP组合可能主要有两种单倍型:A-T-C-GG-C-T-A
  • Tag SNP选择
    选取代表性强(如高LD、高频率)的SNP作为标签,简化后续分析。

3. 可视化与验证

  • LD热图
    以三角形热图展示SNP对的LD值,红色表示高LD,蓝色表示低LD(如out.svg文件)。
  • 区块边界检查
    确保算法划分的LD Block与热图中的高LD区域一致,避免误判。

4. 生物学意义

  • 功能单元
    LD Block常对应基因组中保守的功能区域(如基因调控区),单倍型可能反映自然选择或适应性进化。
  • 群体遗传
    不同群体的LD Block结构差异可揭示群体历史(如瓶颈效应、迁徙事件)。

示例流程

假设分析某基因区域的SNP数据:

  1. 计算所有相邻SNP对的D’值,发现SNP1~SNP5之间的D’均 >0.9。
  2. 将这些SNP合并为一个LD Block(如chr1:1000-5000)。
  3. 推断该区块内存在两种主要单倍型:H1: A-T-G-C(频率60%)和H2: G-C-A-T(频率40%)。
  4. 选择SNP3作为Tag SNP(与区块内其他SNP高度连锁)。

总结

LD Block通过量化SNP间的连锁不平衡,划分基因组中稳定遗传的区域,并推断单倍型组合。其本质是利用群体遗传规律,简化复杂基因组数据,为疾病关联分析、进化研究等提供关键依据。


问题:单倍型计算软件

示例 LDBlockShow
// An highlighted block# 先转换为输入文件Vcf格式
plink --allow-extra-chr --file bestqc --recode vcf-iid --out test --chr-set 50 # 检测单倍型:如指定计算区域(显著位点上下游扩200Kb得到候选区间)
LDBlockShow-1.40/bin/LDBlockShow -InVCF test.vcf -OutPut out -Region 1:48464:5639101# 可选参数
LDBlockShow-1.40/bin/LDBlockShow -InVCF test.vcf -OutPut out1 -Region 5:38070673:39104739 -SeleVar 1 -BlockType 2
-SeleVar:选择每个单倍型块内最具代表性的标签 SNP(Tag SNP)选择策略的参数。其核心功能是通过特定算法从单倍型块中筛选出最具代表性的 SNP。如maf值最大/最强连锁不平衡(如最高R2-BlockType 2:划分单倍型块# 检测单倍型svg转换为png/pdf
LDBlockShow-1.40/bin/svg_kit/svg2xxx.pl out.svg -t png
  • 结果文件
    out.blocks.gz
    out.site.gz
    out.svg + out.png
    out.TriangleV.gz
# out.blocks.gzCHR          BP1          BP2           KB  NSNPS SNPS1        48464       194819      146.356      4 48464|100422|190247|1948191       781592       783016        1.425      2 781592|7830161      5272334      5283920       11.587      2 5272334|52839201      5624821      5639101       14.281      2 5624821|5639101
# 加SeleVar参数后输出格式 out.blocks.gz
chr    Start   End     SNPNumber       TagSNPList
5       38083018        38094381        8       38083018,38088995
5       38094733        38095737        2       38094733# out.site.gz
1	48464
1	100422# out.TriangleV.gz

out.png
在这里插入图片描述
在这里插入图片描述
颜色越红的标记,可以构建成一个单倍型块,如黑框标记的地方


http://www.xdnf.cn/news/38485.html

相关文章:

  • RS232实现主单从多通讯
  • PTA | 与零交换
  • 220V转DC3V-3.2VLED供电WT5105
  • Nacos配置中心服务端源码解析
  • 程序性能(1)嵌入式基准测试工具
  • vmare识别不到共享文件夹,报错:fuse: bad mount point `/mnt/hgfs‘: No such file or directory
  • Python requests代理(Proxy)使用教程
  • Transformer(李宏毅)
  • C语言数据结构顺序表
  • 面试题--随机(一)
  • 每日算法-250419
  • 实验扩充 LED显示4*4键位值
  • 航电春季赛(七)1010 网格计数
  • python(八)-数据类型转换
  • 【C++算法】66.栈_比较含退格的字符串
  • linux软件仓库
  • 【AIVS】OPENAIVS开源视频推理系统简介
  • 【内置函数】84个Python内置函数全整理
  • 嘉立创原理图、PCB常见问题
  • 8.5/Q1,Charls最新文章解读
  • JavaScript 变量命名规范
  • LeetCode 2563.统计公平数对的数目:排序 + 二分查找
  • 行为审计软件:企业合规与内部监控的数字守门人
  • 硬件工程师面试常见问题(3)
  • Linux下使用C++获取硬件信息
  • Spring Cloud CircuitBreaker服务熔断+隔离+限流
  • 【解决】torch引入过程中的ImportError: __nvJitLinkAddData_12_1, version libnvJitLink.so.12
  • 编程技能:调试04,逐语句命令
  • 08-DevOps-向Harbor上传自定义镜像
  • 【数字IC进阶】整数除3和模3的高效实现