2025年数学建模国赛C题第二版本超详细解题思路
C题思路解析
问题一:对于问题一,其实是一个前期准备问题,在这个问题中提出的内容一般都是为了下面真正的模型和真正要解决的问题而设立的。一般来说相比其他三个题都比较简单且思路清晰,这里我们采用如下的方式进行解决:
首先,我们进行数据预处理操作,将不必要的变量进行剔除,随后,我们将非数值型的类别变量进行独热编码操作,全部转化为数值型变量。之后,将Y染色体浓度和其他的特征变量进行斯皮尔曼相关系数的计算,绘制热力图,观察各个变量之间的相关情况,之后,对相关系数进行检验,观察p值来确定显著性。最后,我们分别使用线性和非线性的方法对数据进行拟合,观察拟合的情况以及准确性等指标,输出变量的系数。
问题二:对于问题二,题目要求我们对孕妇的BMI进行合理的分组,题目中已经给出样例,例如:[20,28),[28,32),[32,36),[36,40),40以上。那么对于这种分组,我们可以采用聚类的方式进行,例如使用K-means聚类等手段,将所有的样本进行聚类,具体的类别视情况而定,例如根据碎石图。之后,众所周知的是,检测胎儿异常肯定是越早越好,这里思路是我们越早检测到Y浓度达标越好,从而使得孕妇可能的潜在风险最小。对于风险,题目中已经说明,早期发现(12 周以内)风险较低;中期发现(13-27 周)风险高;晚期发现(28 周以后)风险极高。
若Y染色体浓度大于4%,则视为达标,否则标记为未达标,同一孕妇可能有多次检测,取第一次达标的孕周。统计该组所有孕妇的“首次达标孕周”,例如可以取第90百分位数孕周(即90%孕妇在该孕周前已达标)作为最佳NIPT时点。
问题三:对于问题三,我们的思路是考虑到其他所有有可能的影响因素,而非最主要的,那么同样的,首先我们可以使用聚类,使用所有的特征进行聚类操作,其次可以使用决策树等算法进行分组,分好组后,在观察BMI的分布状况,从而最终确定分组情况,随后,如上所述,我们将第90百分位数的孕周视为最佳的NIPT时点。
问题四:对于问题四,根据题目所示,已知染色体非整倍体通常定义为该染色体存在一个或三个拷贝,正常为两个拷贝,且每条染色体所采集到的读段数量与该染色体长度成正比。这里我的理解是女胎异常并不一定代表不健康,异常说的是染色体不正常复制,因此我们可以把AB列视为是标签,空白则表示正常,然后非空白则表示异常,之后可以使用机器学习模型进行判别,且最好使用决策树或者xgboost等模型,方便结果的解释和临床说明。