当前位置：首页 > news >正文

2025国赛C题创新论文+代码可视化 NIPT 的时点选择与胎儿的异常判定

news 2025/9/6 10:51:34

基于多通道LED光谱优化的人体节律调节与睡眠质量评估模型

摘要

无创产前检测（NIPT）通过分析孕妇血浆中胎儿游离DNA来筛查染色体异常，其准确性很大程度上依赖于胎儿Y染色体浓度的达标情况。本研究旨在建立Y染色体浓度与孕妇生理指标的关系模型，优化不同BMI分组的最佳检测时点，并构建女胎异常判定方法。

数据处理方面，对Y染色体浓度进行Arcsine Square Root变换以符合正态分布假设，采用严格的数据清洗策略去除异常值和缺失值，并对连续变量进行标准化处理。针对类别不平衡问题，采用代价敏感学习和SMOTE过采样技术进行处理。

问题一分析了Y染色体浓度与孕周、BMI等指标的相关特性。通过15个BMI细分组，分别拟合15种数学模型（线性、二次多项式、指数、对数、幂函数、Sigmoid等），采用R²、RMSE、AIC、BIC等指标进行模型选择。结果显示三次多项式和混合指数模型在多数分组中表现最优，孕周与Y染色体浓度呈显著正相关（p<0.001），BMI与浓度呈负相关关系。

问题二建立了BMI分组和最佳检测时点的优化模型。以最小化加权平均最早达标时间为目标函数，约束条件包括每组最小样本量、80%达标概率阈值和10-25周检测窗口。采用粒子群优化算法求解得到5个最优BMI分组区间，各组推荐检测时点在11.2-14.8周之间，低BMI组需要更晚的检测时间。敏感性分析表明检测误差每增加50%，达标概率平均下降12%。

问题三扩展为五变量综合优化模型，同时考虑年龄、身高、体重、BMI、孕周对Y染色体浓度的影响。采用五变量二次多项式模型（14个参数）进行拟合，结合约束优化求解最佳分组和检测时点。结果显示综合模型的拟合精度比单纯BMI模型提高15%，各组检测时点相比问题二有0.5-1.2周的调整，体现了多因素综合考虑的优势。

问题四构建了女胎异常判定分类模型。首先通过Spearman相关分析从13个候选指标中筛选出BMI、孕周、重复率、原始读段数、体重等5个关键指标。比较了逻辑回归、支持向量机、决策树、随机森林、朴素贝叶斯、集成学习6种分类算法，随机森林模型表现最优（AUC=0.856）。通过ROC分析确定最优判定阈值为0.347，在该阈值下敏感性为82.3%，特异性为78.9%。

本研究建立了从单因素到多因素、从回归到分类的完整NIPT优化分析框架，创新性地将约束优化理论应用于临床检测时点确定，首次提出了基于多指标综合评分的女胎异常判定方法。研究成果为个性化NIPT检测方案制定提供了科学依据，具有重要的临床应用价值。

关键词：无创产前检测；Y染色体浓度；检测时点优化；异常判定；非线性回归模型

一、问题重述

1.1 问题背景

无创产前检测（Non-invasive Prenatal Testing，简称 NIPT）作为近年来发展迅速的产前筛查技术，正逐渐成为孕期检测的重要手段。与传统的羊水穿刺、绒毛取样等侵入性检查相比，NIPT 通过采集孕妇外周血中的游离 DNA（cell-free DNA，cfDNA），对胎儿染色体进行分析，从而判断胎儿是否存在染色体异常。这一方法安全性高、创伤小、孕妇依从性好，能够在孕早期及中期有效地为孕妇及医生提供重要的遗传学信息，因此在临床产前筛查与诊断领域具有重要意义。

在临床实践中，NIPT 的主要检测目标集中在三种最常见且危害严重的染色体非整倍体疾病：唐氏综合征（21-三体综合征）、爱德华氏综合征（18-三体综合征）以及帕陶氏综合征（13-三体综合征）。唐氏综合征患儿通常表现为智力障碍和多系统发育异常，生存质量显著降低；爱德华氏综合征和帕陶氏综合征则常伴随严重的多器官畸形和极高的围产期死亡率。这些疾病一旦发生，将对家庭和社会带来沉重负担。因此，如何在孕期尽早、准确地发现胎儿是否存在上述染色体异常，是产前医学的核心目标之一。

NIPT 的核心原理在于对母体血液中胎儿来源的游离 DNA 片段进行高通量测序与统计学分析。由于胎儿DNA 在母体血浆中的比例较低，检测的准确性在很大程度上依赖于胎儿 cfDNA 的浓度，尤其是性染色体的检测情况。临床经验表明，若检测对象为男胎，则当 Y 染色体 DNA 浓度达到或高于 4% 时，可以较为可靠地反映胎儿染色体比例，从而保证检测结果的可信度；若为女胎，则需通过 X 染色体 DNA 浓度是否异常来辅助判断。若胎儿性染色体浓度不足，则检测结果的准确性将受到明显影响，可能出现假阴性或假阳性结果，降低临床参考价值。

此外，检测时机的选择对结果的临床意义也至关重要。一般而言，NIPT 适用于孕 10 周至 25 周的孕妇，其中在孕 12 周以内进行检测，能够实现对胎儿染色体异常的早期发现，从而在医疗干预、妊娠管理及家庭决策等方面为孕妇及家庭争取更多时间和空间。若在孕中期（13－27 周）才发现异常，治疗和干预的难度和风险将显著增加；若延迟至孕晚期（28 周以后），不仅诊断和处理的选择有限，还可能因错过最佳干预窗口而导致母婴面临极高风险。因此，早发现、早干预是提高 NIPT 临床价值的关键。

综上所述，NIPT 作为一种安全、便捷且准确率较高的产前检测方法，在临床上具有广阔

代码部分：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from scipy.optimize import curve_fit
from sklearn.metrics import r2_score
import warningswarnings.filterwarnings('ignore')def calc_metrics(y_true, y_pred, num_params):"""计算拟合评价指标"""n = len(y_true)# R²r2 = r2_score(y_true, y_pred)# RMSErmse = np.sqrt(np.mean((y_true - y_pred) ** 2))# AICmse = np.mean((y_true - y_pred) ** 2)aic = n * np.log(mse) + 2 * num_params# BICbic = n * np.log(mse) + num_params * np.log(n)return r2, rmse, aic, bicdef define_models():"""定义15种拟合模型"""models = {}# 模型1: 线性模型models['线性模型'] = {'func': lambda x, p1, p2, p3: p1 * x[:, 0] + p2 * x[:, 1] + p3,'p0': [0.01, 0.01, 0.5],'equation_template': 'Y = {:.6f}*BMI + {:.6f}*yz + {:.6f}'}# 模型2: 二次多项式模型models['二次多项式'] = {'func': lambda x, p1, p2, p3, p4, p5, p6: p1 * x[:, 0] ** 2 + p2 * x[:, 1] ** 2 + p3 * x[:, 0] * x[:,1] + p4 * x[:,0] + p5 * x[:,1] + p6,'p0': [0.001, 0.001, 0.001, 0.01, 0.01, 0.5],'equation_template': 'Y = {:.6f}*BMI² + {:.6f}*yz² + {:.6f}*BMI*yz + {:.6f}*BMI + {:.6f}*yz + {:.6f}'}# 模型3: 指数模型models['指数模型'] = {'func': lambda x, p1, p2, p3, p4: p1 * np.exp(p2 * x[:, 0] + p3 * x[:, 1]) + p4,'p0': [0.5, 0.01, 0.01, 0.1],'equation_template': 'Y = {:.6f}*exp({:.6f}*BMI + {:.6f}*yz) + {:.6f}'}# 模型4: 对数模型models['对数模型'] = {'func': lambda x, p1, p2, p3, p4: p1 * np.log(x[:, 0]) + p2 * np.log(x[:, 1]) + p3 * np.log(x[:, 0]) * np.log(x[:, 1]) + p4,'p0': [0.01, 0.01, 0.001, 0.5],'equation_template': 'Y = {:.6f}*ln(BMI) + {:.6f}*ln(yz) + {:.6f}*ln(BMI)*ln(yz) + {:.6f}','requires_positive': True}# 模型5: Sigmoid模型models['Sigmoid模型'] = {'func': lambda x, p1, p2, p3, p4, p5: p1 / (1 + np.exp(-(p2 * x[:, 0] + p3 * x[:, 1] + p4))) + p5,'p0': [0.5, 0.01, 0.01, -1, 0.1],'equation_template': 'Y = {:.6f}/(1+exp(-({:.6f}*BMI+{:.6f}*yz+{:.6f}))) + {:.6f}'}# 模型6: 三次多项式模型models['三次多项式'] = {'func': lambda x, p1, p2, p3, p4, p5, p6, p7, p8, p9, p10: (p1 * x[:, 0] ** 3 + p2 * x[:, 1] ** 3 +p3 * x[:, 0] ** 2 * x[:, 1] + p4 * x[:, 0] * x[:,1] ** 2 + p5 * x[:,0] ** 2 + p6 * x[:,1] ** 2 +p7 * x[:, 0] * x[:, 1] + p8 * x[:, 0] + p9 * x[:,1] + p10),'p0': [0.0001, 0.0001, 0.0001, 0.0001, 0.001, 0.001, 0.001, 0.01, 0.01, 0.5],'equation_template': 'Y = {:.6f}*BMI³ + {:.6f}*yz³ + {:.6f}*BMI²*yz + {:.6f}*BMI*yz² + {:.6f}*BMI² + {:.6f}*yz² + {:.6f}*BMI*yz + {:.6f}*BMI + {:.6f}*yz + {:.6f}','min_points': 15}# 模型7: 双曲正切模型models['双曲正切模型'] = {'func': lambda x, p1, p2, p3, p4, p5: p1 * np.tanh(p2 * x[:, 0] + p3 * x[:, 1] + p4) + p5,'p0': [0.5, 0.01, 0.01, 0, 0.5],'equation_template': 'Y = {:.6f}*tanh({:.6f}*BMI + {:.6f}*yz + {:.6f}) + {:.6f}'}# 模型8: 平方根模型models['平方根模型'] = {'func': lambda x, p1, p2, p3, p4, p5, p6: p1 * np.sqrt(x[:, 0]) + p2 * np.sqrt(x[:, 1]) + p3 * np.sqrt(x[:, 0]) * np.sqrt(x[:, 1]) + p4 * x[:, 0] + p5 * x[:, 1] + p6,'p0': [0.01, 0.01, 0.001, 0.001, 0.001, 0.5],'equation_template': 'Y = {:.6f}*√BMI + {:.6f}*√yz + {:.6f}*√BMI*√yz + {:.6f}*BMI + {:.6f}*yz + {:.6f}','requires_non_negative': True}# 模型9: 高斯函数模型models['高斯函数模型'] = {'func': lambda x, p1, p2, p3, p4, p5, p6: p1 * np.exp(-((x[:, 0] - p2) ** 2 / p3 ** 2 + (x[:, 1] - p4) ** 2 / p5 ** 2)) + p6,'p0': [0.5, 25, 5, 20, 5, 0.1],'equation_template': 'Y = {:.6f}*exp(-((BMI-{:.6f})²/{:.6f}² + (yz-{:.6f})²/{:.6f}²)) + {:.6f}'}# 模型10: 复合指数模型models['复合指数模型'] = {'func': lambda x, p1, p2, p3, p4, p5: p1 * np.exp(p2 * x[:, 0]) + p3 * np.exp(p4 * x[:, 1]) + p5,'p0': [0.5, 0.01, 0.5, 0.01, 0.1],'equation_template': 'Y = {:.6f}*exp({:.6f}*BMI) + {:.6f}*exp({:.6f}*yz) + {:.6f}'}# 模型11: 混合多项式-指数模型models['混合多项式-指数'] = {'func': lambda x, p1, p2, p3, p4, p5, p6: (p1 * x[:, 0] + p2 * x[:, 1] + p3) * np.exp(p4 * x[:, 0] + p5 * x[:, 1]) + p6,'p0': [0.01, 0.01, 1, 0.001, 0.001, 0.1],'equation_template': 'Y = ({:.6f}*BMI + {:.6f}*yz + {:.6f})*exp({:.6f}*BMI + {:.6f}*yz) + {:.6f}'}# 模型12: 双Sigmoid模型models['双Sigmoid模型'] = {'func': lambda x, p1, p2, p3, p4, p5, p6, p7: p1 / (1 + np.exp(-(p2 * x[:, 0] + p3))) + p4 / (1 + np.exp(-(p5 * x[:, 1] + p6))) + p7,'p0': [0.25, 0.1, -2.5, 0.25, 0.1, -2, 0.1],'equation_template': 'Y = {:.6f}/(1+exp(-({:.6f}*BMI+{:.6f}))) + {:.6f}/(1+exp(-({:.6f}*yz+{:.6f}))) + {:.6f}'}# 模型13: 有理函数模型models['有理函数模型'] = {'func': lambda x, p1, p2, p3, p4, p5, p6, p7, p8, p9: (p1 * x[:, 0] ** 2 + p2 * x[:, 1] ** 2 + p3 * x[:, 0] * x[:,1] + p4 * x[:,0] + p5 * x[:,1] + p6) / (p7 * x[:, 0] + p8 * x[:, 1] + p9),'p0': [0.001, 0.001, 0.001, 0.01, 0.01, 0.5, 0.001, 0.001, 1],'equation_template': 'Y = ({:.6f}*BMI² + {:.6f}*yz² + {:.6f}*BMI*yz + {:.6f}*BMI + {:.6f}*yz + {:.6f})/({:.6f}*BMI + {:.6f}*yz + {:.6f})'}# 模型14: 分数幂混合模型models['分数幂混合模型'] = {'func': lambda x, p1, p2, p3, p4, p5, p6, p7, p8: p1 * x[:, 0] ** p2 + p3 * x[:, 1] ** p4 + p5 * x[:,0] ** p6 * x[:,1] ** p7 + p8,'p0': [1, 0.5, 1, 0.5, 0.1, 0.3, 0.3, 0.5],'equation_template': 'Y = {:.6f}*BMI^{:.6f} + {:.6f}*yz^{:.6f} + {:.6f}*BMI^{:.6f}*yz^{:.6f} + {:.6f}','requires_positive': True}# 模型15: 幂函数模型（使用线性回归拟合对数变换）models['幂函数模型'] = {'func': 'power_law',  # 特殊标记'equation_template': 'Y = {:.6f}*BMI^{:.6f}*yz^{:.6f}','requires_positive': True}return modelsdef fit_power_law_model(X, Y):"""幂函数模型的特殊拟合方法"""try:# Y = a * BMI^b * yz^c# ln(Y) = ln(a) + b*ln(BMI) + c*ln(yz)log_Y = np.log(Y)log_X = np.column_stack([np.ones(len(Y)), np.log(X[:, 0]), np.log(X[:, 1])])coeffs = np.linalg.lstsq(log_X, log_Y, rcond=None)[0]a = np.exp(coeffs[0])b = coeffs[1]c = coeffs[2]Y_pred = a * (X[:, 0] ** b) * (X[:, 1] ** c)return Y_pred, [a, b, c], Trueexcept:return None, None, Falsedef fit_single_model(X, Y, model_name, model_info):"""拟合单个模型"""try:# 检查数据要求if model_info.get('requires_positive', False):if not (np.all(X > 0) and np.all(Y > 0)):return None, None, None, Falseif model_info.get('requires_non_negative', False):if not (np.all(X >= 0) and np.all(Y >= 0)):return None, None, None, Falseif model_info.get('min_points', 0) > len(Y):return None, None, None, False# 特殊处理幂函数模型if model_info['func'] == 'power_law':Y_pred, params, success = fit_power_law_model(X, Y)if not success:return None, None, None, Falseequation = model_info['equation_template'].format(*params)return Y_pred, params, equation, True# 标准拟合流程popt, _ = curve_fit(model_info['func'], X, Y, p0=model_info['p0'], maxfev=5000)Y_pred = model_info['func'](X, *popt)equation = model_info['equation_template'].format(*popt)return Y_pred, popt, equation, Trueexcept Exception as e:return None, None, None, Falsedef main():print("% BMI分组双变量非线性拟合分析")print("正在读取数据...")# 读取Excel数据filename = 'q11.xlsx'try:data = pd.read_excel(filename)except FileNotFoundError:print(f"错误：找不到文件 {filename}")return# 提取数据列BMI = data['BMI'].valuesyz = data['yz'].values  # 孕妇本次检测时的孕周Y_raw = data['Y'].values  # Y染色体游离DNA片段的比例# 数据清洗 - 去除NaN值valid_idx = ~(np.isnan(BMI) | np.isnan(yz) | np.isnan(Y_raw))BMI = BMI[valid_idx]yz = yz[valid_idx]Y_raw = Y_raw[valid_idx]# 对Y染色体浓度进行Arcsine Square Root变换Y = np.arcsin(np.sqrt(Y_raw))print(f"\n原始数据概况:")print(f"有效数据点数: {len(BMI)}")print(f"BMI范围: {BMI.min():.2f} - {BMI.max():.2f}")print(f"孕周范围: {yz.min():.2f} - {yz.max():.2f}")print(f"Y染色体浓度范围: {Y.min():.4f} - {Y.max():.4f} (变换后)")# BMI分组定义（15个区间）BMI_groups = [([20.0, 21.4], '[20.0,21.4)'),([21.4, 22.9], '[21.4,22.9)'),([22.9, 24.3], '[22.9,24.3)'),([24.3, 25.7], '[24.3,25.7)'),([25.7, 27.1], '[25.7,27.1)'),([27.1, 28.6], '[27.1,28.6)'),([28.6, 30.0], '[28.6,30.0)'),([30.0, 31.4], '[30.0,31.4)'),([31.4, 32.9], '[31.4,32.9)'),([32.9, 34.3], '[32.9,34.3)'),([34.3, 35.7], '[34.3,35.7)'),([35.7, 37.1], '[35.7,37.1)'),([37.1, 38.6], '[37.1,38.6)'),([38.6, 40.0], '[38.6,40.0)'),([40.0, np.inf], '40以上')

其中更详细的思路、各题目思路、代码、讲解视频、成品论文及其他相关内容，可以点击下方群名片！

查看全文

http://www.xdnf.cn/news/1467541.html