当前位置: 首页 > web >正文

【使用Plink检测ROH问题查找】为什么检测ROH参数不一样,FROH近交系数结果差异很大?

为什么检测ROH参数不一样,结果差异很大?

结果

基于ROH检测的结果与参数设置密切相关。参数的改变(对应近交系数改变)可能会对结果产生很大影响。

原因

ROH分析缺乏共识标准,这种缺乏共识将导致结果偏倚,FROH可能被低估。


文献参考

文献名称:《How to study runs of homozygosity using PLINK? A guide for analyzing medium density SNP data in livestock and pet species》
文章链接:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-020-6463-x


结论

  1. 该文献详细解释了ROH检测的参数设置、过滤方法及近交系数计算
  2. 研究表明MAF和LD质控以及PLINK输入设置会严重影响ROH分析,建议:
    • 不执行LD、MAF质控
    • 对最大间隙、扫描窗口长度和阈值设置提供参数建议

ROH定义

纯合子片段(ROH):是畜牧种群近亲繁殖分析的先进方法,定义为基因组中长而连续的纯合片段,其长度表明来自共同祖先:

  • 短ROH:远距离近亲繁殖指标
  • 长ROH:近期近亲繁殖指标
  • 最初发现于人类基因组

软件:PLINK参数解析

检测流程(–homozyg函数)

  1. 扫描窗口定义
    • --homozyg-window-snp:预定义SNP数量
    • --homozyg-window-het:允许的最大杂合SNP数
    • --homozyg-window-missing:允许的最大缺失SNP数
  2. 阈值判定
    • --homozyg-window-threshold:扫描窗口命中率(示例:100个SNP窗口+0.05阈值=需出现在至少5个纯合窗口)
  3. 最终约束条件
    • --homozyg-gap:片段间最大间隔
    • --homozyg-het:允许的最大杂合SNP数
    • --homozyg-density:最小SNP密度(kb/SNP)
    • --homozyg-kb/--homozyg-snp:最小长度和SNP数

参数研究

1. LD质控

  • 影响:影响情况依赖于群体种群结构的差异,简而言之有的影响大、有的不大。可能降低基因组覆盖度,显著降低FROH
  • 建议:提高ROH检测严格性,例如 SNP数 和 最小 ROH 长度,来纠正由 LD 引起的假阳性。

2. MAF质控

  • 现象:不同种群不同结果,有的种群前后一致。部分种群质控后检测不到ROH
  • 建议:ROH分析前不执行MAF质控

3. 最小密度要求

  • 阈值范围:从平均密度 40 kb/SNP 开始,基因组覆盖率增加,在 60 至 75 kb/SNP 之间达到最大覆盖率。23 项研究中有 10 项使用 50 kb/SNP 的密度
  • 建议:计算基因组覆盖率参数,被证明是检查密度参数是否设置适当的好方法。对于研究的人群,在 60 至 70 kb/SNP 之间达到最大基因组覆盖度,依据此来看至少50。

4. 最大间隙要求

  • 最优值:使用大约 500 kb 的间隙大小达到了最大的基因组覆盖度。默认的 PLINK 间隙 (1000 kb) 覆盖了超过 99% 的可检测常染色体。

5. 扫描窗口大小与阈值

  • 规律:阈值增加,不再检测到特别短的 ROH,导致FROH降低。

PLINK常用参数设置

PLINK采用固定大小的滑窗扫描每条染色体,寻找连续的纯合SNP。

--homozyg-density 50   # 每50kb需1个SNP
--homozyg-gap 1000     # SNP间隔>1000kb不归同一ROH
--homozyg-kb 500       # 检测>500kb的ROH
--homozyg-snp 50       # 检测长度>50 SNP的ROH
--homozyg-window-het 1 # 允许1个杂合位点
--homozyg-window-snp 50 # 滑窗50 SNP
--homozyg-window-threshold 0.05 # 纯合窗口比例阈值

输出文件及应用

PLINK输出文件说明

1. .hom文件(ROH详细信息)

字段说明
FID家族ID (Family ID)
IID个体ID (Individual ID)
CHROMROH所在的染色体编号
STARTROH的起始位置(以bp为单位)
ENDROH的终止位置(以bp为单位)
LENROH的长度(以bp为单位)
NSNPROH中包含的SNP数量
HETROH中杂合位点的数量(通常为0或1,根据参数设置)
HET_EXPECT在该ROH长度下,理论上预期的杂合位点数量
HET_P实际杂合位点数量与预期杂合位点数量的P值(判断ROH纯合性是否显著)

2. .hom.indiv文件(个体汇总信息)

字段说明
FID家族ID
IID个体ID
NROH该个体中检测到的ROH总数
LENROH所有ROH的总长度(bp)
LENROH_S短ROH总长度(<1MB)
LENROH_M中等ROH总长度(1-5MB)
LENROH_L长ROH总长度(>5MB)
LENROH_S_PCT短ROH占总长度的百分比
LENROH_M_PCT中等ROH占总长度的百分比
LENROH_L_PCT长ROH占总长度的百分比

数据分析方法

1. 判断个体的近交程度

近交系数公式
FROH=个体ROH总长度(bp)\ 基因组总长度(bp)$$

判断标准

  • ROH总长度较长 ➔ 高近交程度
  • ROH总长度较短 ➔ 低近交程度

2. 判断群体特征

群体近交程度
指标判断标准
平均ROH总长度值越高表明群体近交程度越高
平均ROH数量值越高表明群体纯合区域越多
遗传多样性评估
特征生物学意义
短ROH比例高群体遗传多样性低(可能经历过瓶颈效应)
长ROH比例高群体存在近期近交事件

不同参数结果查看

在这里插入图片描述
可见示例3个样本,不同的参数,最终计算的结果不太相同,但可以肯定的是,其中近交系数值偏大的样本,不论用哪一种参数,相对于其它样本来说,均偏大,如示例2.

群体类型使用参数文献参考-具体见以上链接

在这里插入图片描述

http://www.xdnf.cn/news/1276.html

相关文章:

  • C#抽象类和虚方法的作用是什么?
  • 使用java实现设计图中多个设备的自动布线,根据如下要求生成详细设计方案文档
  • 基于SpringBoot的校园赛事直播管理系统-项目分享
  • AI领域:MCP 与 A2A 协议的关系
  • 文献汇总|AI生成图像模型溯源相关工作汇总(2019年至今)
  • C++中的引用:深入理解与实用示例
  • 爬虫学习——下载文件和图片、模拟登录方式进行信息获取
  • 基于深度学习的校园食堂菜品智能结算系统
  • 面试题-链表(1)
  • 影刀填写输入框(web) 时出错: Can not convert Array to String
  • RAGFlow:构建高效检索增强生成流程的技术解析
  • 【(保姆级教程)Ubuntu24.10下部署Dify】
  • MIT6.S081 - Lab9 File Systems(文件系统)
  • ref绑定函数
  • 关闭111端口监听
  • rlm.exe是什么
  • JS 浅析正则表达式
  • 【pytorch学习】土堆pytorch笔记1
  • ibus输入法微软词库分享
  • 什么是管理思维?
  • 今日行情明日机会——20250422
  • QGIS实用功能:加载天地图与下载指定区域遥感影像
  • 制作一款打飞机游戏17:敌人
  • Phyton简介与入门
  • git配置
  • AI答题小程序应用场景有哪些
  • 如何获取适用于智能家电的谷歌浏览器版本【简单安装】
  • Kubernetes finalize | namespace卡Terminatingfinalizers删除失败
  • 如何在spark里搭建local模式
  • 深度解析:基于卷积神经网络的宠物识别