当前位置：首页 > news >正文

【群体结构ADMIXTURE之三】监督分群在祖先成分分析中的应用及原理

news 2025/6/13 20:09:44

基于监督模型的群体结构分析原理与结果解读

核心目标

精确量化目标个体/群体基因组中来源于多个预定义祖先参考群体的遗传贡献比例。

与非监督模型的关键区别

维度	监督模型	非监督模型
数据要求	需带标签的参考数据集	无标签数据
分析目的	将目标个体投影到已知群体框架	发现未知群体结构
结果输出	直接输出参考群体的概率/比例	输出未定义祖先群体的比例

监督血统分析原理流程

1. 构建参考面板

参考群体选择
- 遗传背景清晰、代表性强的“纯”群体（如西欧人、西非人）
- 每个群体需几十至几百个个体样本
数据质控
SNP位点需通过：
- 缺失率过滤
- MAF筛选
- HWE检验
- LD修剪

2. 训练监督模型

常用算法原理

算法	核心机制	输出结果
判别分析(LDA/QDA)	最大化类间方差/类内方差比，构建判别坐标系	判别函数权重 + 群体中心坐标
支持向量机(SVM)	寻找最大化分类间隔的超平面	决策函数 + 支持向量
随机森林	构建多决策树进行概率投票	类概率估计模型

3. 目标个体分析

判别分析流程
分类器流程
基因型向量输入 → 模型预测 → 输出各参考群体的概率值（总和为1）

4. 血统比例计算（判别分析）

距离转换法

w_k = 1 / d_k 或 exp(-d_k)   # 距离→权重
ancestry_k = w_k / Σ(w)      # 归一化得比例

贝叶斯后验概率法（推荐）

P(k|x) ∝ P(x|k)·P(k)        # 后验概率直接作为比例

5. 可视化与解读

判别空间图：LD1 vs LD2散点图显示目标个体相对位置
血统比例图：柱状图展示各参考群体贡献比例
解读本质：反映基因组与参考群体的统计相似度，非精确生物学分割

关键优势与挑战

关键优势

结果可解释性强：血统比例直接对应到生物学上明确定义的参考群体（如欧洲人、非洲人），无需像非监督模型那样去解释“祖先群体1”是什么。

对混合个体更精确：当目标个体是多个祖先群体混合的后代时，监督模型利用已知参考群体信息，能更准确地量化混合比例。

计算效率高：模型训练在参考面板上进行一次即可，分析目标个体时只需快速投影或预测。

避免过度细分：不会发现与研究问题无关的细微结构（如家系结构），专注于研究者关心的特定祖先来源。

注意事项：

参考面板的质量是核心：

纯度：参考群体必须尽可能“纯”（代表历史上的祖先状态），避免自身就是混合群体。否则会引入偏差（“垃圾进，垃圾出”）。

代表性：必须包含目标个体所有可能的祖先来源群体。遗漏某个祖先群体会导致其贡献被错误地分配给其他群体。

样本量与SNP密度：足够的样本量能准确刻画群体内部的遗传多样性；足够的SNP密度（通常是全基因组SNP芯片数据）提供分辨力。

模型假设：

离散祖先群体：模型假设存在离散的、遗传上可区分的祖先群体。现实中群体结构可能是连续的（地理隔离模型）。

遗传变异的模式：判别分析通常假设群体内基因型服从多维正态分布（在SNP数据上是一个近似）。随机森林等非参数方法对此假设依赖较少。

目标个体与参考面板的关系：如果目标个体含有参考面板中不存在的独特祖先成分，模型会强制将其分配到已有的参考群体中，导致错误估计。

过度拟合风险：如果参考群体内部变异很大或群体间差异很小，模型可能在训练集上表现好，但对新样本泛化能力差。交叉验证在训练参考模型时也很重要。

SNP位点选择：通常会选择在参考群体间等位基因频率差异大（高Fst）的SNP位点作为特征，以提高分辨力（特征选择）。

总结：

监督群体结构分析（血统分析）的原理是：利用已知祖先背景的参考群体数据训练一个监督学习模型（如LDA或随机森林），学习区分这些参考群体的遗传特征模式；然后将目标个体的基因型数据投影到这个训练好的模型空间或直接应用模型进行预测，计算出目标个体的基因组与每个参考群体的相似度或归属概率，这个相似度或概率即被量化为该参考群体贡献的血统比例。其结果的准确性极度依赖于参考面板的质量（纯度、代表性、样本量、SNP密度）。它是法医祖先推断、个人祖源检测、研究历史混合事件等应用中最主要的工具。