当前位置：首页 > java >正文

通俗易懂神经网络：从基础到实现

java 2025/7/21 12:40:01

引言

神经网络是人工智能和深度学习的核心，它模仿人脑的工作方式，通过数据学习复杂的模式。本文将以通俗易懂的方式讲解神经网络的基础知识，包括单层神经网络、多层神经网络，最后用Python代码实现一个简单的神经网络模型。

1. 神经网络模型基础

1.1 什么是神经网络？

神经网络是由神经元（Neurons）组成的计算系统，它接收输入数据，经过一系列计算后输出预测结果。其核心思想是模仿人脑神经元之间的连接方式。

图表：人工神经元结构示意图

扩展说明：
每个神经元会对输入加权求和，加上偏置后通过激活函数，输出结果。激活函数赋予网络非线性表达能力。

1.2 神经元的结构

一个神经元的基本计算方式如下：

$\text{输出} = f(w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b)\,$

其中：

( $x1,x2,…,xnx_1, x_2, \dots, x_n$ ) 是输入数据
( $w1,w2,…,wnw_1, w_2, \dots, w_n$ ) 是权重（决定输入的重要性）
( $b$ ) 是偏置（调整输出的偏移量）
( $f$ ) 是激活函数（引入非线性）

1.3 常见的激活函数

函数名称	公式	特点
Sigmoid	$\sigma(x) = \frac{1}{1 + e^{-x}} \,$	输出0~1，适合二分类
ReLU	$\text{ReLU}(x) = \max(0, x) \,$	计算快，缓解梯度消失
Tanh	$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \,$	输出-1~1，适合回归

图表：常见激活函数对比思维导图

扩展说明：
激活函数的选择会影响神经网络的收敛速度和表达能力。ReLU因其高效和缓解梯度消失问题，在深度网络中应用最广。

2. 单层神经网络（感知机）

单层神经网络（Perceptron）是最简单的神经网络，仅包含输入层和输出层，没有隐藏层。

图表：单层感知机结构图

2.1 数学表示

$f(\mathbf{w}^T \mathbf{x} + b)$

( $\mathbf{x}\,$ ) 是输入向量
( $\mathbf{w}\,$ ) 是权重向量
( $b$ ) 是偏置
( $f$ ) 是激活函数（如Sigmoid）

2.2 应用场景

线性分类（如逻辑回归）
简单二分类问题

扩展说明：
单层感知机只能解决线性可分问题，无法拟合复杂的非线性关系。

3. 多层神经网络（深度神经网络）

多层神经网络（MLP, Multi-Layer Perceptron）包含输入层、隐藏层、输出层，能够学习更复杂的非线性关系。

图表：多层神经网络结构图

3.1 结构

输入层：接收原始数据（如像素、文本）
隐藏层：多个非线性变换层（常用ReLU）
输出层：最终预测（如分类概率）

3.2 前向传播

数据从输入层逐层计算到输出层：
$\mathbf{h}_1 = f(\mathbf{W}_1 \mathbf{x} + \mathbf{b}_1) \\ \mathbf{h}_2 = f(\mathbf{W}_2 \mathbf{h}_1 + \mathbf{b}_2) \\ \dots \\ \mathbf{y} = f(\mathbf{W}_n \mathbf{h}_{n-1} + \mathbf{b}_n)$

图表：前向传播流程图

3.3 反向传播（Backpropagation）

通过计算损失函数的梯度，调整权重和偏置：
$\mathbf{w} \leftarrow \mathbf{w} - \eta \frac{\partial L}{\partial \mathbf{w}}$
其中：

( $L$ ) 是损失函数（如交叉熵、MSE）
( $\eta\,$ ) 是学习率

图表：反向传播流程图

扩展说明：
前向传播负责计算输出，反向传播则根据损失调整参数，是神经网络学习的核心机制。

4. 神经网络代码简单实现（Python）

使用 numpy 和 sklearn 实现一个简单的多层神经网络（MLP）进行二分类。

4.1 数据准备

import numpy as np
from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split# 生成非线性数据集
X, y = make_moons(n_samples=1000, noise=0.2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

4.2 定义神经网络

class NeuralNetwork:def __init__(self, input_size, hidden_size, output_size):# 初始化权重self.W1 = np.random.randn(input_size, hidden_size) * 0.01self.b1 = np.zeros(hidden_size)self.W2 = np.random.randn(hidden_size, output_size) * 0.01self.b2 = np.zeros(output_size)def relu(self, x):return np.maximum(0, x)def sigmoid(self, x):return 1 / (1 + np.exp(-x))def forward(self, X):# 前向传播self.z1 = np.dot(X, self.W1) + self.b1self.a1 = self.relu(self.z1)self.z2 = np.dot(self.a1, self.W2) + self.b2self.y_pred = self.sigmoid(self.z2)return self.y_preddef backward(self, X, y, lr=0.01):# 反向传播m = X.shape[0]# 计算梯度d_z2 = self.y_pred - y.reshape(-1, 1)d_W2 = np.dot(self.a1.T, d_z2) / md_b2 = np.sum(d_z2, axis=0) / md_a1 = np.dot(d_z2, self.W2.T)d_z1 = d_a1 * (self.a1 > 0)  # ReLU的导数d_W1 = np.dot(X.T, d_z1) / md_b1 = np.sum(d_z1, axis=0) / m# 更新权重self.W1 -= lr * d_W1self.b1 -= lr * d_b1self.W2 -= lr * d_W2self.b2 -= lr * d_b2def train(self, X, y, epochs=1000, lr=0.01):for epoch in range(epochs):y_pred = self.forward(X)loss = -np.mean(y * np.log(y_pred) + (1 - y) * np.log(1 - y_pred))self.backward(X, y, lr)if epoch % 100 == 0:print(f"Epoch {epoch}, Loss: {loss:.4f}")

4.3 训练与测试

# 初始化网络
nn = NeuralNetwork(input_size=2, hidden_size=4, output_size=1)# 训练
nn.train(X_train, y_train, epochs=1000, lr=0.1)# 测试
y_pred = (nn.forward(X_test) > 0.5).astype(int)
accuracy = np.mean(y_pred.flatten() == y_test)
print(f"Test Accuracy: {accuracy * 100:.2f}%")

输出示例：

Epoch 0, Loss: 0.6931
Epoch 100, Loss: 0.3521
Epoch 200, Loss: 0.2104
...
Test Accuracy: 93.33%

5. 神经网络的应用场景

图表：神经网络应用场景思维导图

在这里插入图片描述

扩展说明：
神经网络广泛应用于图像、语音、文本等多种领域，是现代人工智能的基石。

总结

单层神经网络：适合简单线性问题（如逻辑回归）。
多层神经网络（MLP）：能学习复杂非线性关系，是深度学习的基础。
代码实现：使用 numpy 手动实现前向传播、反向传播，训练一个简单的分类模型。

希望这篇博客能帮助你理解神经网络的基本原理！🚀 如果有问题，欢迎留言讨论！

查看全文

http://www.xdnf.cn/news/15852.html

学习日志15 python

零基础入门 AI 运维：Linux 部署全栈项目实战（MySQL+Nginx + 私有化大模型）

【1】计算机视觉方法（更新）

selenium4 web自动化测试

面向对象基础笔记

QFutureInterface和QFuture间联系与区别

《计算机网络》实验报告五 DNS协议分析与测量

两个数据表的故事第 2 部分：理解“设计”Dk

ThinkPHP8极简上手指南：开启高效开发之旅

项目案例：苏宁易购评论获取

民法学学习笔记(个人向) Part.1

【智能协同云图库】第一期：用户管理接口设计与功能实现

【Java学习|黑马笔记|Day18】Stream流|获取、中间方法、终结方法、收集方法及其练习

超大整数任意进制之间在线转换工具

剑指offer67_构建乘积数组

周志华《机器学习导论》第11章特征选择与稀疏学习

PyTorch里的张量及张量的操作

[前端技术基础]CSS选择器冲突解决方法-由DeepSeek产生

前端的测试

如何实战优化SEO关键词提升百度排名？

深度学习图像分类数据集—百种病虫害分类

【KDD2025】时间序列|Merlin：不固定缺失率下时间序列预测新SOTA！

C++ - 仿 RabbitMQ 实现消息队列--服务端核心模块实现（一）

服务器上的文件复制到本地 Windows 系统

python网络爬虫小项目（爬取评论）超级简单

git fork的项目远端标准协作流程仓库设置[设置成upstream]

快速上手git

LINUX入门（二）QT的安装及运行环境搭建

【实习总结】Qt中如何使用QSettings操作.ini配置文件

Vue中组件的生命周期

引言