当前位置: 首页 > news >正文

从线性回归到神经网络到自注意力机制 —— 激活函数与参数的演进

在人工智能的发展历程中,线性回归 是最基础的模型,而 神经网络 则是现代大模型的核心。二者的联系和演进过程,能帮助我们更好地理解为什么大模型能“记住知识”和“推理”。

  1. 线性回归的起点

线性回归公式为:

y=w⋅x+b

x:输入特征(如身高)

y:预测结果(如体重)

w, b:参数,代表模型学习到的规律

这是一个一维映射,输入多少,输出多少,但它的能力有限。

  1. 多元线性回归

如果有多个输入特征,就成了 多元一次方程:

y=w1​x1​+w2​x2​+…+wn​xn​+b

比如预测房价:
𝑥1:面积
x2:地段评分​
x3:房龄

输出:房价

这仍然是“线性”的,无法处理复杂的非线性关系。

这仍然是“线性”的,无法处理复杂的非线性关系。

  1. 激活函数的引入

为了让模型能拟合非线性模式,我们需要 激活函数,比如 Sigmoid:

在这里插入图片描述

它能把线性输出压缩到 (0,1) 区间,并且让模型具备非线性表达能力。
比如:根据成绩预测“是否录取”,Sigmoid 就能把结果转化为概率。

  1. 从神经元到神经网络

一个神经元公式:

h=f(w⋅x+b)

其中 f 就是激活函数。

多个神经元堆叠,就形成了隐藏层。比如:

输入层:784 个节点(28×28 图像)

隐藏层 1:128 个神经元 + ReLU

隐藏层 2:64 个神经元 + ReLU

输出层:10 个神经元 + Softmax

这样,网络就能学习到复杂的规律,从简单的像素预测,到识别“这是 3 还是 8”。

为什么大模型能理解上下文 —— Self-Attention 机制详解

现代大语言模型(LLM)如 GPT、LLaMA、ChatGLM 等,都基于 Transformer 架构,其核心就是 Self-Attention 机制。这是模型能够“读懂上下文”的关键。

  1. Self-Attention 的直觉

在一句话里,每个词都和上下文其他词存在联系。
比如句子:

“我去银行存钱”
这里“银行”更可能指金融机构。
而在:
“我在河边的银行散步”
这里“银行”指的是河岸。

模型要做的就是:根据上下文,判断词与词之间的重要性。

  1. Q, K, V 的来源

对于输入的每个词向量(Embedding),模型会生成三个向量:

Query (Q):我要查什么?

Key (K):我能提供什么信息?

Value (V):我的内容是什么?

这三个向量由训练好的 权重矩阵 生成,因此是 模型参数的一部分。

  1. Attention 计算公式

Attention 的核心公式是:
在这里插入图片描述
解释:

QKT:计算词与词的相关性(点积)
在这里插入图片描述
:归一化,防止数值过大

Softmax:转化为概率权重

乘以 V:得到加权后的信息

  1. 举个案例

输入句子:

“The cat sat on the mat”

当模型预测“sat”时,Q 会和上下文的 K 计算相关性:

“cat” 的 K 与 “sat” 高度相关 → 权重高

“mat” 的 K 相关性弱 → 权重低

最终,模型把更多注意力分配给“cat”,从而理解句子结构。

  1. 为什么能预测下一个词

通过多层堆叠,Attention 能让每个词都“看到”全局上下文。结合大规模数据训练,模型学会:

高频模式(语言语法)

长程依赖(前后文逻辑)

知识记忆(事实性信息)

这就是为什么大模型能一边理解上下文,一边预测下一个合理的词。

http://www.xdnf.cn/news/1328131.html

相关文章:

  • 人工智能统一信息结构的挑战与前景
  • 比赛准备之环境配置
  • 进程间的通信1.(管道,信号)
  • LINUX 软件编程 -- 线程
  • 决策树(续)
  • LeetCode100-560和为K的子数组
  • 决策树1.1
  • 项目一系列-第5章 前后端快速开发
  • 项目管理.管理理念学习
  • react-quill-new富文本编辑器工具栏上传、粘贴截图、拖拽图片将base64改上传服务器再显示
  • LeetCode算法日记 - Day 16: 连续数组、矩阵区域和
  • 第4章 React状态管理基础
  • 算法训练营day56 图论⑥ 108. 109.冗余连接系列
  • 项目过程管理的重点是什么
  • Ansible 角色管理
  • 点大餐饮独立版系统源码v1.0.3+uniapp前端+搭建教程
  • GStreamer无线图传:树莓派到计算机的WiFi图传方案
  • GEO 优化专家孟庆涛:技术破壁者重构 AI 时代搜索逻辑
  • RESTful API 开发实践:淘宝商品详情页数据采集方案
  • Apache IoTDB:大数据时代时序数据库选型的技术突围与实践指南
  • 从0到1认识Rust通道
  • Redis-缓存-击穿-分布式锁
  • 无人机场景 - 目标检测数据集 - 山林野火烟雾检测数据集下载「包含VOC、COCO、YOLO三种格式」
  • 国产!全志T113-i 双核Cortex-A7@1.2GHz 工业开发板—ARM + FPGA通信案例
  • 如何免费给视频加字幕
  • Linux的ALSA音频框架学习笔记
  • Spring AOP 和 Spring 拦截器
  • LeetCode 100 -- Day2
  • JVM垃圾收集器
  • ts 引入类型 type 可以省略吗