当前位置: 首页 > ai >正文

【机器学习入门】5.2 回归的起源——从身高遗传到线性模型的百年演变

提到 “回归”,很多刚入门的同学会觉得它是个抽象的数学概念,但你可能想不到,这个术语的诞生,竟然源于 19 世纪一位生物学家对 “身高遗传” 的研究。回归分析从 “观察生物现象” 出发,逐步发展成机器学习中预测连续值的核心工具,这背后藏着一段有趣的科学史。

这篇文章会沿着 “历史脉络” 展开,从 “回归的提出者(高尔顿)” 讲起,详细拆解他的身高遗传实验、“向均值回归” 现象的发现、“回归” 术语的由来,再到线性回归模型的雏形,让你不仅懂 “回归是什么”,更懂 “它从哪里来”,全程贴合入门认知,不堆砌复杂公式,用生活化的例子还原这段科学历程。

一、回归的 “创始人”:弗朗西斯・高尔顿(Sir Francis Galton)

要讲回归的起源,必须先认识一个人 ——弗朗西斯・高尔顿(1822-1911),英国著名的生物学家、统计学家,也是 “进化论之父” 达尔文的表弟。

高尔顿的研究兴趣非常广泛,从气象学到遗传学,但让他与 “回归” 结缘的,是他对 “遗传规律” 的探索 ——19 世纪末,他一直困惑一个问题:
“如果父母身高很高,他们的孩子会不会越来越高?如果父母身高很矮,孩子会不会越来越矮?长此以往,人类的身高会不会出现‘极端分化’(要么特别高,要么特别矮)?”

图片来源于网络,仅供学习参考

为了回答这个问题,他做了一项划时代的研究,这也成为 “回归分析” 的起点。

二、关键实验:身高遗传的 “向均值回归” 现象

高尔顿没有停留在猜想,而是通过 “数据收集 + 分析” 验证自己的疑问,整个实验过程清晰且严谨,即使放在今天看,也符合科学研究的逻辑。

2.1 实验第一步:收集数据 —— 几百个家庭的身高记录

高尔顿联合助手,收集了近 1000 个家庭的身高数据,涵盖父母和子女(每个家庭至少包含 1 位父母和 1 位成年子女)。为了简化分析,他做了两个关键处理:

  1. 统一 “父母身高” 计算方式:将 “父亲身高” 和 “母亲身高 ×1.08”(当时认为母亲身高需换算成 “等效父亲身高”,避免性别差异影响)取平均值,得到 “父母平均身高”(记为x);
  2. 聚焦 “成年子女身高”:只统计子女成年后的身高(记为y),避免年龄对身高的影响。

最终,他得到了一组 “父母平均身高 - 子女身高” 的配对数据,比如(父母平均 72 英寸,子女 70 英寸)、(父母平均 62 英寸,子女 64 英寸)等(注:1 英寸≈2.54 厘米,当时英国常用英寸作为身高单位)。

2.2 实验第二步:分析数据 —— 意外发现 “向均值回归”

高尔顿将收集到的数据绘制成 “散点图”(横轴是父母平均身高x,纵轴是子女身高y),然后观察数据的分布规律,结果却出乎他的意料:
身高并没有出现 “极端分化”,反而呈现 “向均值靠拢” 的趋势—— 这就是后来被称为 “向均值回归(Regression to the Mean)” 的核心现象。

我们用具体数据举例,更直观理解这个现象(当时英国成年男性的平均身高约为 68 英寸):

  • 高个子父母组:父母平均身高 72 英寸(比均值高 4 英寸),他们的子女平均身高约为 70 英寸(比均值高 2 英寸)—— 子女比父母矮,向均值靠拢;
  • 矮个子父母组:父母平均身高 62 英寸(比均值低 6 英寸),他们的子女平均身高约为 64 英寸(比均值低 4 英寸)—— 子女比父母高,也向均值靠拢;
  • 中等身高父母组:父母平均身高 68 英寸(等于均值),他们的子女平均身高也接近 68 英寸 —— 基本稳定在均值附近。

高尔顿在论文中描述这个现象时说:“身高的遗传就像被一根‘无形的线’拉着,极端值总会向平均水平回归,这让人类身高在长期中保持稳定,不会出现极端分化。”

2.3 “回归” 术语的诞生:从 “Regression” 到中文翻译

高尔顿在 1886 年发表的《遗传的身高向均值回归》论文中,第一次使用 “Regression” 这个词来描述上述现象 ——“Regression” 在拉丁语中本意是 “回到之前的状态”,在这里特指 “子女身高回到人类平均身高的状态”。

后来,这个术语被统计学家沿用,并逐步推广到更广泛的领域:只要数据呈现 “极端值向均值靠拢” 的规律,都可以称为 “回归现象”;而用于分析这种现象的数学方法,就被称为 “回归分析”。

到了 20 世纪,回归分析传入中国,“Regression” 被翻译成 “回归”,既保留了 “回到均值” 的核心含义,又简洁易懂,一直沿用至今。

三、从 “现象” 到 “模型”:线性回归的雏形

高尔顿没有止步于发现 “向均值回归” 现象,他进一步思考:“父母身高和子女身高之间,是否存在可量化的数学关系?能不能用一个公式,根据父母身高预测子女身高?”

这一步,他从 “生物学家” 变成了 “统计学家”,也为后来的 “线性回归模型” 奠定了基础。

3.1 拟合 “线性预测线”:找到身高遗传的数学规律

高尔顿将 “父母平均身高x” 和 “子女身高y” 的散点图放在坐标系中,发现这些点虽然分散,但整体呈现 “线性趋势”—— 可以用一条直线来近似描述两者的关系。

他通过当时的 “最小二乘法”(一种让直线与散点 “距离最近” 的数学方法),拟合出了第一条 “身高遗传预测线”,对应的公式(以英寸为单位)为:y=33.73+0.516x

我们来拆解这个公式的含义(入门阶段不用纠结计算细节,重点看物理意义):

图片来源于网络,仅供学习参考
  • x:父母平均身高(单位:英寸);
  • y:预测的子女身高(单位:英寸);
  • 斜率 0.516:表示 “父母身高每增加 1 英寸,子女身高平均增加 0.516 英寸”—— 这体现了遗传的 “传递强度”,小于 1 说明子女身高不会像父母那样极端,符合 “向均值回归” 规律;
  • 截距 33.73:表示 “当父母平均身高为 0 英寸(极端情况)时,子女身高的基础值”—— 主要用于调整公式的整体水平,让预测更贴合实际数据。
例子:用公式预测子女身高

假设一对父母的平均身高是 72 英寸(高个子父母),代入公式:y=33.73+0.516×72=33.73+37.152=70.882英寸
约等于 71 英寸,比父母平均身高 72 英寸矮,符合 “向均值回归”(均值 68 英寸)的规律,和高尔顿观察到的现象完全一致。

3.2 单位换算:从英寸到米的适配

随着国际单位制的推广,身高单位逐渐从 “英寸” 改为 “米”,高尔顿的公式也被调整为米的版本(保持数学关系不变):y=0.8567+0.516x

其中:

  • x:父母平均身高(单位:米);
  • y:预测的子女身高(单位:米);
  • 斜率仍为 0.516:说明 “遗传传递强度” 与单位无关,是身高遗传的固有规律;
  • 截距 0.8567:对应英寸公式的 33.73 英寸(33.73×2.54≈85.67 厘米 = 0.8567 米)。
例子:米单位下的预测

父母平均身高 1.83 米(约 72 英寸),代入公式:y=0.8567+0.516×1.83≈0.8567+0.944≈1.80米
约 1.80 米,比父母平均身高 1.83 米矮,同样符合 “向均值回归” 规律(人类平均身高约 1.75 米)。

3.3 回归分析的 “进化”:从身高到更广泛的预测

高尔顿的身高遗传研究,本质上是 “用线性关系描述两个变量的预测关系”—— 这正是后来 “线性回归” 的核心逻辑。随着统计学的发展,回归分析逐步突破了 “身高遗传” 的局限,推广到更多领域:

  • 经济学家用回归分析预测 “GDP 与就业率的关系”;
  • 农学家用回归分析预测 “施肥量与农作物产量的关系”;
  • 医生用回归分析预测 “血压与年龄的关系”;
  • 到了机器学习时代,回归分析进一步升级,成为 “预测连续值” 的核心模型(如房价预测、销量预测)。

可以说,高尔顿当年的一个简单实验,开启了一门影响深远的统计与机器学习分支。

四、回归起源的核心启示:对入门学生的 3 点启发

了解回归的起源,不仅是 “学历史”,更能帮你理解回归分析的本质,避免陷入 “只记公式不懂原理” 的误区。对入门学生来说,有 3 点关键启示:

4.1 回归的本质:不是 “倒退”,而是 “规律”

很多人看到 “回归” 就以为是 “回到过去”,其实不然 —— 回归的核心是 “数据的统计规律”:极端值总会向均值靠拢,这是一种自然的统计现象,不是 “倒退”,而是 “稳定” 的体现。
比如考试成绩:某次考 100 分(极端高分)的同学,下次可能考 90 分(向班级均值靠拢);某次考 50 分(极端低分)的同学,下次可能考 60 分 —— 这不是 “退步” 或 “进步”,而是回归规律的体现。

4.2 线性回归的初心:用简单模型描述复杂关系

高尔顿拟合的 “身高预测线”,是最简单的线性模型 —— 只用一个一次函数,就描述了父母身高与子女身高的关系。这告诉我们:好的模型不一定复杂,能准确描述规律的简单模型,往往更有价值
入门阶段学习线性回归,就是要掌握 “用简单线性关系解决预测问题” 的思维,这是后续学习复杂模型(如多项式回归、神经网络)的基础。

4.3 数据驱动:回归分析的核心是 “用数据说话”

高尔顿的研究不是 “拍脑袋猜想”,而是基于近 1000 个家庭的真实数据 —— 从数据中发现现象,再用模型描述现象,这是回归分析乃至整个机器学习的核心逻辑。
未来你做回归任务时,也要记住:先理解数据(比如看散点图、分析特征与目标的关系),再选择模型,而不是直接套用公式。

五、总结:回归的 “前世今生”

我们用一条时间线,梳理回归从起源到发展的关键节点,帮你形成完整认知:

  1. 1880s:高尔顿收集家庭身高数据,发现 “向均值回归” 现象,提出 “Regression” 术语;
  2. 1886 年:高尔顿发表论文,拟合出第一条 “线性预测线”,线性回归模型雏形诞生;
  3. 20 世纪初:统计学家完善 “最小二乘法”,为线性回归提供坚实的数学基础;
  4. 20 世纪中后期:回归分析推广到经济、农业、医疗等领域,成为经典统计工具;
  5. 21 世纪:回归分析与机器学习结合,成为预测连续值的核心模型,应用于房价、销量、股价等场景。

回归的起源故事告诉我们:很多伟大的科学概念,都源于对生活现象的好奇与探索。对入门学生来说,学习回归不仅要掌握公式和代码,更要理解它背后的科学思维 ——“用数据发现规律,用模型解决问题”。

下一章我们会深入讲解 “线性回归的数学原理”,带你从 “理解起源” 走向 “掌握方法”。如果这篇文章里有哪个历史细节或公式没搞懂,欢迎在评论区留言,我们一起拆解!

http://www.xdnf.cn/news/19654.html

相关文章:

  • 狄利克雷分布作用
  • CentOS 创建站点
  • 二进制流进行预览pdf、excel、docx
  • Cisco FMC利用sftp Server拷贝文件方法
  • 0902 C++类的匿名对象
  • 面试问题:c++的内存管理方式,delete的使用,vector的resize和reverse,容量拓展
  • uni-app 布局之 Flex
  • 基于STM32与华为云联动的智能电动车充电桩管理系统
  • QSlider 和 QProgressBar 的区别与实践
  • 【Linux基础】Linux系统启动:深入解析Linux系统启动完整流程
  • 仿真波导中超短脉冲传输中的各种非线性效应所产生的超连续谱
  • AI如何理解PDF中的表格和图片?
  • qt安装FFmpeg后编译遇到error: collect2.exe: error: ld returned 1 exit status错误
  • 链表题类型注解解惑:理解Optional,理解ListNode
  • 数据结构--跳表(Skip List)
  • 【学Python自动化】 7. Python 输入与输出学习笔记
  • kaggle中的2D目标检测训练trick总结
  • 用了企业微信 AI 半年,这 5 个功能让我彻底告别重复劳动
  • 一文带你入门 AT 指令集:从串口通信到模块控制
  • 【智能体开发】怎样提升AI智能体的运行速度?
  • 实验2-代理模式和观察者模式设计
  • C++全局变量未初始的和已初始化的位置放在哪里?
  • C语言————实战项目“扫雷游戏”(完整代码)
  • 【Spring Cloud微服务】9.一站式掌握 Seata:架构设计与 AT、TCC、Saga、XA 模式选型指南
  • MD5加密算法详解与实现
  • 【LeetCode_26】删除有序数组中的重复项
  • 手撕Redis底层2-网络模型深度剖析
  • 云电脑是什么?与普通电脑的区别在哪里?——天翼云电脑体验推荐
  • 全国产FT-M6678核心板
  • SQL JOIN 操作全面解析