【使用Plink检测ROH问题查找】为什么检测ROH参数不一样,FROH近交系数结果差异很大?
为什么检测ROH参数不一样,结果差异很大?
结果
基于ROH检测的结果与参数设置密切相关。参数的改变(对应近交系数改变)可能会对结果产生很大影响。
原因
ROH分析缺乏共识标准,这种缺乏共识将导致结果偏倚,FROH可能被低估。
文献参考
文献名称:《How to study runs of homozygosity using PLINK? A guide for analyzing medium density SNP data in livestock and pet species》
文章链接:https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-020-6463-x
结论
- 该文献详细解释了ROH检测的参数设置、过滤方法及近交系数计算
- 研究表明MAF和LD质控以及PLINK输入设置会严重影响ROH分析,建议:
- 不执行LD、MAF质控
- 对最大间隙、扫描窗口长度和阈值设置提供参数建议
ROH定义
纯合子片段(ROH):是畜牧种群近亲繁殖分析的先进方法,定义为基因组中长而连续的纯合片段,其长度表明来自共同祖先:
- 短ROH:远距离近亲繁殖指标
- 长ROH:近期近亲繁殖指标
- 最初发现于人类基因组
软件:PLINK参数解析
检测流程(–homozyg函数)
- 扫描窗口定义:
--homozyg-window-snp
:预定义SNP数量--homozyg-window-het
:允许的最大杂合SNP数--homozyg-window-missing
:允许的最大缺失SNP数
- 阈值判定:
--homozyg-window-threshold
:扫描窗口命中率(示例:100个SNP窗口+0.05阈值=需出现在至少5个纯合窗口)
- 最终约束条件:
--homozyg-gap
:片段间最大间隔--homozyg-het
:允许的最大杂合SNP数--homozyg-density
:最小SNP密度(kb/SNP)--homozyg-kb
/--homozyg-snp
:最小长度和SNP数
参数研究
1. LD质控
- 影响:影响情况依赖于群体种群结构的差异,简而言之有的影响大、有的不大。可能降低基因组覆盖度,显著降低FROH
- 建议:提高ROH检测严格性,例如 SNP数 和 最小 ROH 长度,来纠正由 LD 引起的假阳性。
2. MAF质控
- 现象:不同种群不同结果,有的种群前后一致。部分种群质控后检测不到ROH
- 建议:ROH分析前不执行MAF质控
3. 最小密度要求
- 阈值范围:从平均密度 40 kb/SNP 开始,基因组覆盖率增加,在 60 至 75 kb/SNP 之间达到最大覆盖率。23 项研究中有 10 项使用 50 kb/SNP 的密度
- 建议:计算基因组覆盖率参数,被证明是检查密度参数是否设置适当的好方法。对于研究的人群,在 60 至 70 kb/SNP 之间达到最大基因组覆盖度,依据此来看至少50。
4. 最大间隙要求
- 最优值:使用大约 500 kb 的间隙大小达到了最大的基因组覆盖度。默认的 PLINK 间隙 (1000 kb) 覆盖了超过 99% 的可检测常染色体。
5. 扫描窗口大小与阈值
- 规律:阈值增加,不再检测到特别短的 ROH,导致FROH降低。
PLINK常用参数设置
PLINK采用固定大小的滑窗扫描每条染色体,寻找连续的纯合SNP。
--homozyg-density 50 # 每50kb需1个SNP
--homozyg-gap 1000 # SNP间隔>1000kb不归同一ROH
--homozyg-kb 500 # 检测>500kb的ROH
--homozyg-snp 50 # 检测长度>50 SNP的ROH
--homozyg-window-het 1 # 允许1个杂合位点
--homozyg-window-snp 50 # 滑窗50 SNP
--homozyg-window-threshold 0.05 # 纯合窗口比例阈值
输出文件及应用
PLINK输出文件说明
1. .hom文件(ROH详细信息)
字段 | 说明 |
---|---|
FID | 家族ID (Family ID) |
IID | 个体ID (Individual ID) |
CHROM | ROH所在的染色体编号 |
START | ROH的起始位置(以bp为单位) |
END | ROH的终止位置(以bp为单位) |
LEN | ROH的长度(以bp为单位) |
NSNP | ROH中包含的SNP数量 |
HET | ROH中杂合位点的数量(通常为0或1,根据参数设置) |
HET_EXPECT | 在该ROH长度下,理论上预期的杂合位点数量 |
HET_P | 实际杂合位点数量与预期杂合位点数量的P值(判断ROH纯合性是否显著) |
2. .hom.indiv文件(个体汇总信息)
字段 | 说明 |
---|---|
FID | 家族ID |
IID | 个体ID |
NROH | 该个体中检测到的ROH总数 |
LENROH | 所有ROH的总长度(bp) |
LENROH_S | 短ROH总长度(<1MB) |
LENROH_M | 中等ROH总长度(1-5MB) |
LENROH_L | 长ROH总长度(>5MB) |
LENROH_S_PCT | 短ROH占总长度的百分比 |
LENROH_M_PCT | 中等ROH占总长度的百分比 |
LENROH_L_PCT | 长ROH占总长度的百分比 |
数据分析方法
1. 判断个体的近交程度
近交系数公式:
FROH=个体ROH总长度(bp)\ 基因组总长度(bp)$$
判断标准:
- ROH总长度较长 ➔ 高近交程度
- ROH总长度较短 ➔ 低近交程度
2. 判断群体特征
群体近交程度
指标 | 判断标准 |
---|---|
平均ROH总长度 | 值越高表明群体近交程度越高 |
平均ROH数量 | 值越高表明群体纯合区域越多 |
遗传多样性评估
特征 | 生物学意义 |
---|---|
短ROH比例高 | 群体遗传多样性低(可能经历过瓶颈效应) |
长ROH比例高 | 群体存在近期近交事件 |
不同参数结果查看
可见示例3个样本,不同的参数,最终计算的结果不太相同,但可以肯定的是,其中近交系数值偏大的样本,不论用哪一种参数,相对于其它样本来说,均偏大,如示例2.