数学建模25c
一、问题理解与建模目标
- 目标:找出胎儿Y染色体浓度(因变量)与孕妇孕周数、BMI等指标(自变量)之间的关系,并建立数学模型,检验各变量对Y染色体浓度的影响是否显著。
二、数据预处理
-
数据清洗
- 剔除缺失值、异常值(如测序失败、浓度为0等无效数据)。
- 对多次检测的孕妇,考虑取均值、最大值或首次检测值,具体可根据实际情况选择。
-
变量筛选与构造
- 主要自变量:孕周数、BMI。
- 可选自变量:年龄、检测次数、采血时间、胎儿性别等。
- 对分类变量(如胎儿性别)进行哑变量处理。
三、探索性数据分析(EDA)
- 描述性统计
- 画出Y染色体浓度、孕周数、BMI的分布直方图、箱线图。
- 相关性分析
- 计算Y染色体浓度与各自变量的皮尔逊/斯皮尔曼相关系数。
- 绘制散点图(Y浓度 vs 孕周数、Y浓度 vs BMI)。
四、关系模型建立
-
单变量回归分析
- 先分别做Y染色体浓度对孕周数、BMI的线性回归,初步判断关系。
-
多元线性回归模型
- 形式:
[
Y = \beta_0 + \beta_1 \cdot \text{孕周数} + \beta_2 \cdot \text{BMI} + \beta_3 \cdot \text{其他变量} + \epsilon
] - 若变量间有非线性关系,可尝试多项式回归或对数变换。
- 形式:
-
模型选择与优化
- 可用逐步回归、LASSO等方法筛选显著变量。
- 检查多重共线性(VIF)。
五、显著性检验
- 回归系数显著性
- 检查各回归系数的t检验p值,判断哪些变量对Y染色体浓度有显著影响(p<0.05为显著)。
- 模型整体显著性
- F检验,R²、调整R²评价模型拟合优度。
- 残差分析
- 检查残差正态性、异方差性,确保模型假设成立。
六、结果解释与可视化
- 解释各变量对Y染色体浓度的影响方向和大小。
- 可视化回归结果、残差分布等。
七、可选拓展
- 若数据量大、变量多,可尝试机器学习方法(如随机森林、SVR等)进行建模对比。
- 若有分组(如不同BMI区间),可分组建模,比较不同组的模型差异。