当前位置: 首页 > web >正文

WebRTC 通话原理:从协商到通信

在实时音视频通信领域,WebRTC(Web Real-Time Communication)凭借其开源、无需插件且能在浏览器中直接实现高质量通信的特性,成为开发者的热门选择。本文将深入解析 WebRTC 通话原理,涵盖媒体协商、网络协商、网络穿越(STUN)、中继转发(TURN)以及一对一通话信令服务器时序等核心内容,助你揭开 WebRTC 通信的神秘面纱。​

一、媒体协商:确定通信 “语言”​

媒体协商是 WebRTC 通话的基石,其核心在于通信双方就媒体格式、编解码器、分辨率、帧率等关键参数达成共识,确保双方能够顺畅 “对话”。在 WebRTC 体系中,这一过程主要依托 SDP(Session Description Protocol,会话描述协议)来实现。​

1. SDP 协议

本小节参考:

SDP协议是什么,详解SDP协议-CSDN博客

【音视频开发】 : SDP协议-CSDN博客

SDP 采用纯文本格式,以结构化的方式描述多媒体会话属性,其内容由多个字段组成,每个字段都承载着特定的信息,其基本格式如下:

<type>=<value>

以下是几个关键字段及其作用:​

  • v=:版本号字段,标识 SDP 协议的版本,目前常用版本为 0 。​
v=0
  • o=:拥有者 / 创建者字段,包含用户名、会话 ID、会话版本等信息,用于唯一标识一个会话。​
	o=<username> <sessionid> <version> <network type> <address type> <address>
  • s=:会话名称字段,描述会话的主题或用途,例如 “WebRTC 音视频通话”。​
s=<sessionname>
  • c=:表示媒体的连接信息,会话级描述中或中媒体级描述必至少有一个”c=“。
c=<networktype> <address type> <connection address>
  • t=:会话时间字段,指明会话的开始时间和结束时间,在持久连接的 WebRTC 通话中,该字段通常设置为 0 0,表示会话无固定时间限制(单位秒)。​
t=<start time>  <stop time>
  • m=:媒体描述字段,是媒体协商的核心部分。它会明确媒体类型(如 audio 表示音频,video 表示视频)、传输端口、传输协议(通常为 RTP/AVP,其中 AVP 代表 Audio/Video Profile),以及该媒体流支持的有效载荷类型(即编解码器)。例如 m=video 9 UDP/TLS/RTP/SAVPF 100 101 ,表示这是一个视频媒体流,使用 UDP 协议,基于 TLS 进行安全传输,采用 RTP 协议,支持 SAVPF(可扩展的音视频分布简档),有效载荷类型 100 和 101 对应不同的视频编解码器。​
m=<media><port> <transport> <fmt list>
  • a=:属性字段,用于补充媒体描述的详细信息,如编码参数、带宽限制、媒体控制等。例如 a=rtpmap:100 VP8/90000 ,表示有效载荷类型 100 对应的是 VP8 视频编解码器,采样率为 90000Hz 。​
a=rtpmap:<payload type><encoding name>/<clock rate>[/<encodingparameters>]

通过这些字段的组合,SDP 能够全面、准确地描述多媒体会话的各项属性,为媒体协商提供清晰的信息基础。​

示例:

v=0
o=- 0 0 IN IP4 127.0.0.1
s=VLC media player
c=IN IP4 127.0.0.1
t=0 0
a=tool:vlc 2.2.4
m=video 5004 RTP/AVP 96
a=rtpmap:96 H264/90000
a=fmtp:96 packetization-mode=1;profile-level-id=64001F;sprop-parameter-sets=Z0IAH5WoFAFuQA==,aM48gA==
a=control:streamid=0

2. Offer 与 Answer 的生成与交互细节​

当 A 端发起通话请求时,会调用 WebRTC API 中的 createOffer 方法生成 SDP Offer。在生成过程中,浏览器或应用会根据设备硬件能力和软件配置,罗列出自身支持的媒体参数组合。例如,在视频方面,可能支持 VP8、VP9、H.264 等多种编码格式,每种格式又对应不同的分辨率和帧率选项;音频方面,可能支持 Opus、PCM 等编码格式,以及不同的采样率和声道数。这些信息都会被整合到 SDP Offer 中。​

A 端生成 Offer 后,通过信令服务器将其发送给 B 端。B 端接收到 Offer 后,会对其中的媒体参数进行逐一分析。首先,B 端会检查自身设备和软件是否支持 Offer 中的媒体类型和编解码器。如果支持,B 端会根据自身的性能和资源情况,从支持的参数中选择最优的组合,然后调用 createAnswer 方法生成 SDP Answer。例如,如果 B 端设备性能有限,对于视频编码可能会选择相对低复杂度的 VP8,而不是 H.264 。​

B 端生成 Answer 后,同样借助信令服务器将其返回给 A 端。A 端接收到 Answer 后,会对比 Answer 中的参数与自己 Offer 中的参数,确认双方是否就媒体参数达成一致。若存在不一致或无法支持的参数,可能需要重新发起协商,或者采取默认的兼容设置,以保证通话能够顺利进行。​

3. 媒体协商过程中的异常处理与兼容性​

在实际网络环境中,媒体协商并非总是一帆风顺,可能会遇到各种异常情况。比如,由于网络延迟或丢包,B 端可能无法完整接收 A 端发送的 Offer,导致解析失败。此时,B 端可以通过信令服务器向 A 端发送错误反馈,请求重新发送 Offer。​

另外,不同浏览器或设备对 WebRTC 的支持程度存在差异,这也会影响媒体协商的结果。例如,某些老旧浏览器可能不支持最新的编解码器,或者对 SDP 协议的某些扩展字段解析存在问题。为了提高兼容性,开发者可以在协商过程中设置一些默认的、广泛支持的媒体参数作为保底选项。同时,还可以采用渐进式协商策略,先尝试使用高级的媒体参数进行协商,如果失败,则逐步降低参数要求,直至找到双方都支持的配置。

二、网络协商:规划数据传输路径​

网络协商在 WebRTC 通话中至关重要,它的核心使命是为通信双方敲定数据传输的路径与方式,涉及网络地址、端口以及传输协议等关键要素的确定。WebRTC 采用 ICE(Interactive Connectivity Establishment,交互式连接建立)框架,通过系统化的流程与策略,实现高效、稳定的数据传输链路搭建(ICE 主要用于实现端到端的通信连接,尤其是在 P2P(Peer-to-Peer)协议中,通常与 STUN(Session Traversal Utilities for NAT)和 TURN(Traversal Using Relays around NAT)一起使用)。

1. ICE 框架的核心构成与工作机制​

ICE 框架主要由三个关键部分组成:候选地址收集、候选地址交换、候选地址检查和连接建立。​

候选地址收集:​

ICE 会从多个渠道收集候选地址,为后续的连接尝试提供多种可能性。这些候选地址主要包括以下类型:​

  • 主机候选地址(Host Candidate):即设备在本地网络中的真实 IP 地址和端口。例如,当设备连接到家庭局域网时,获取到的 192.168.1.x 这类内网 IP 地址及其对应的端口,就构成了主机候选地址。这是最直接的连接方式,若双方处于同一局域网内,使用主机候选地址进行连接能实现最低延迟的数据传输。​
  • 服务器反射候选地址(Server-Reflexive Candidate,简称 SRF 候选地址):当设备处于 NAT(Network Address Translation,网络地址转换)设备之后时,设备自身无法直接获取其在公网中的地址。此时,设备会向 STUN(Session Traversal Utilities for NAT,NAT 会话遍历实用工具)服务器发送请求。STUN 服务器接收到请求后,根据 NAT 设备映射的公网地址和端口信息,将其返回给设备,这个返回的公网地址和端口就成为了服务器反射候选地址。例如,设备在内网的 IP 地址是 192.168.1.100:5000,经过 NAT 转换后,在公网的地址变为 123.123.123.123:6000,STUN 服务器将 123.123.123.123:6000 返回给设备,作为服务器反射候选地址 。​
  • 中继候选地址(Relay Candidate):在复杂网络环境下,当通过主机候选地址和服务器反射候选地址都无法建立连接时,就需要借助 TURN(Traversal Using Relays around NAT,使用中继穿越 NAT)服务器。TURN 服务器会为设备分配一个公网地址和端口,这个地址和端口就是中继候选地址。设备将数据发送给 TURN 服务器,再由 TURN 服务器转发给通信对方,实现数据的中继传输。​

候选地址交换:

通过信令协议(如 SIP、WebRTC 等),每个端点将其候选地址发送给对方,确保双方都能得到彼此的候选地址。

候选地址收集与交换示意图如下:

候选地址检查:​

收集到候选地址后,ICE 会对这些地址进行检查,判断其可用性。ICE 采用 “候选地址对” 的方式进行检查,即从两端设备的候选地址中各选取一个地址组成一对,然后使用 STUN 协议进行连通性测试。例如,A 端的一个候选地址与 B 端的一个候选地址组成一对,ICE 会尝试在这两个地址之间发送探测数据包(相对端上方发STUN Binding请求),根据是否能收到响应(STUN四次握手)来判断该地址对是否可用。在测试过程中,ICE 会遵循一定的优先级顺序(ICE规定了优先级计算方法,两端计算得到的优先级相同),优先测试主机候选地址,因为其理论上能提供最佳的传输性能;若主机候选地址测试失败,再依次测试服务器反射候选地址和中继候选地址。​

连接建立:​

经过候选地址检查,ICE 会从所有可用的候选地址对中,筛选出最优的一对来建立连接。最优地址对的选择通常基于连接的稳定性、延迟等因素。一旦确定了最优地址对,通信双方就会基于该地址对进行数据传输,正式建立起 WebRTC 通话的数据链路。​

2. 网络协商与其他组件的协同工作​

网络协商并非孤立进行,而是与 WebRTC 的其他组件紧密协作。在媒体协商阶段确定了媒体格式和编解码器后,网络协商要确保这些媒体数据能够顺利传输。例如,对于高码率的视频数据传输,网络协商需要选择带宽足够且稳定的传输路径;对于实时性要求极高的音频数据,网络协商要尽量降低传输延迟。​

同时,网络协商与 STUN、TURN 服务器密切配合。当需要获取服务器反射候选地址时,ICE 会与 STUN 服务器交互;在使用中继候选地址进行数据传输时,则依赖 TURN 服务器的中继转发功能。此外,网络协商的结果也会反馈给信令服务器,信令服务器会将相关的网络连接信息传递给通信双方,确保双方都知晓数据传输的路径和方式,从而实现无缝的实时通信。​

网络协商通过 ICE 框架的高效运作,结合 WebRTC 其他组件的协同配合,能够在复杂多变的网络环境中,为 WebRTC 通话规划出一条稳定、高效的数据传输路径,保障音视频数据的流畅传输。​

三、网络穿越(STUN):突破网络限制​

在实际网络环境中,通信双方往往处于不同的网络环境,如 NAT(Network Address Translation,网络地址转换)后面。NAT 会隐藏内部网络设备的真实 IP 地址,导致外部设备无法直接与内部设备建立连接,这就需要网络穿越技术来解决。​

STUN(Session Traversal Utilities for NAT,NAT 会话遍历实用工具)是 WebRTC 中常用的网络穿越技术。STUN 服务器的作用是帮助客户端获取其在公网中的 IP 地址和端口。客户端向 STUN 服务器发送请求,STUN 服务器接收到请求后,根据 NAT 设备映射的公网地址和端口信息,将其返回给客户端。客户端获取到公网地址后,就可以将该地址作为候选地址,与其他客户端进行连接尝试。这样,即使客户端位于 NAT 设备之后,也能实现与外部设备的通信。​

四、中继转发(TURN):保障通信畅通​

当 STUN 无法实现直接连接时,就需要借助 TURN(Traversal Using Relays around NAT,使用中继穿越 NAT)服务器来进行中继转发。TURN 服务器充当数据中转站的角色,接收来自一端的数据,然后转发给另一端。​

TURN 服务器不仅可以处理音视频数据,还能处理其他类型的媒体数据。虽然使用 TURN 服务器会增加一定的传输延迟和服务器负载,但在复杂的网络环境下,它是确保通信能够顺利进行的重要手段。例如,当双方都处于对称 NAT 后面,无法通过 STUN 直接建立连接时,TURN 服务器就成为了实现通信的关键。​

有关STUN,TURN等详细细节请参考我的文章:WebRTC:去中心化网络P2P框架解析-CSDN博客

五、一对一通话信令服务器时序​

信令服务器在 WebRTC 一对一通话中起着桥梁作用,负责传递双方的媒体协商信息、网络协商信息等。以下是一对一通话信令服务器时序的详细流程,通过时序图来直观呈现:

1. 连接初始化阶段​

呼叫方 A 和接收方 B 首先分别与信令服务器建立连接。A 向信令服务器发送连接请求,携带自身用户 ID(如 userA),信令服务器接收请求后进行处理,为 A 分配唯一的会话 ID(如 session_123),并返回连接成功的响应。

紧接着,B 也向信令服务器发送连接请求,附带其用户 ID(如 userB),信令服务器同样为 B 分配会话 ID(如 session_456),并告知 B 连接成功。此时,信令服务器记录下 A 和 B 这两个在线用户的相关信息,为后续的通话交互做好准备。

2. 呼叫发起与接受阶段

A 决定发起呼叫,向信令服务器发送呼叫请求,明确指定呼叫的目标用户为 B。信令服务器接收到该请求后,迅速将其转发给 B,同时附上 A 的相关元数据(如用户标识、设备信息等)。

B 收到呼叫请求后,在其设备上展示来电提示(如响铃、显示来电界面等)。当 B 决定接受呼叫时,向信令服务器发送接受呼叫的响应。信令服务器收到 B 的响应后,及时转发给 A,通知 A 呼叫已被接受,双方即将进入通话流程。

3.媒体协商信令交互​

A 在得知呼叫被接受后,调用相关 API 创建 SDP Offer,其中包含了自身提议的媒体参数,例如视频分辨率为 1080p,音频编码格式为 Opus,视频编码格式为 H.264 等。A 将生成的 SDP Offer 发送给信令服务器,信令服务器再将其转发给 B。

B 接收到 SDP Offer 后,对其中的参数进行解析,并结合自身设备和网络情况,选择合适的媒体参数,比如将视频分辨率调整为 720p,音频和视频编码格式保持为 Opus 和 H.264,然后创建 SDP Answer。B 将 SDP Answer 发送给信令服务器,信令服务器再转发给 A。至此,双方通过信令服务器完成了媒体协商,确定了最终使用 720p 分辨率,以及 H.264/Opus 编码格式进行音视频传输。

4. 网络协商信令交互​

为了建立有效的网络连接,A 和 B 需要进行网络协商,交换 ICE 候选地址。A 先向 STUN 服务器发送请求,获取公网地址,即服务器反射候选地址(SRF 候选),STUN 服务器返回对应的公网 IP(如 1.2.3.4:5000 )。在一些复杂的网络环境下,A 还会向 TURN 服务器请求中继地址(可选操作),TURN 服务器返回中继候选地址(如中继 IP: 5.6.7.8:6000 )。A 将收集到的所有 ICE 候选地址整理成列表,发送给信令服务器。

同样地,B 也向 STUN 服务器请求公网地址,获取自身的 SRF 候选(如公网 IP: 9.8.7.6:5500 ),并在必要时向 TURN 服务器请求中继地址(如中继 IP: 4.3.2.1:6500 ),然后将自己的 ICE 候选地址列表发送给信令服务器。信令服务器分别将 A 和 B 的候选地址列表转发给对方,使得双方都获取到了彼此的网络连接候选地址信息。

5. ICE 连接建立阶段

在拥有了双方的 ICE 候选地址后,开始进行 ICE 连接建立过程。A 和 B 会依次遍历候选地址对进行测试。首先尝试使用主机候选地址(A - Host vs B - Host)进行连接测试,如果双方处于同一局域网内,直接连通成功,B 向 A 返回 ICE 响应,标记连接成功。

若在同一局域网测试失败,说明双方处于跨 NAT 网络环境,此时尝试使用 STUN 穿透,即使用服务器反射候选地址(A - SRF vs B - SRF)进行连接测试。如果 STUN 穿透成功,B 同样向 A 返回 ICE 响应,确认连接成功。

若 STUN 穿透也失败,表明网络环境较为复杂,属于对称 NAT 情况,此时 A 将数据发送给 TURN 服务器的中继地址,TURN 服务器再将数据转发给 B,通过中继方式建立连接。

6. 通话控制信令交互​

当 ICE 连接成功建立后,通话进入媒体流传输阶段。A 开始向 B 发送视频流(采用 720p 分辨率、H.264 编码)和音频流(Opus 编码),同时 B 也向 A 发送相应的视频流和音频流,实现了音视频的双向实时传输,双方能够正常进行通话交流。

7. 通话结束阶段

当 A 想要结束通话时,向信令服务器发送挂断请求。信令服务器将该请求转发给 B,B 接收到请求后,停止媒体流的传输,并向信令服务器发送挂断确认。信令服务器再将 B 的挂断确认转发给 A,A 也停止媒体流传输。至此,双方的通话结束,整个一对一通话的信令交互流程完成。

http://www.xdnf.cn/news/6433.html

相关文章:

  • Intellij报错:the file size(3.47M) exceeds configured limit (2.56MB)
  • websocket入门详解
  • 第28周——InceptionV1实现猴痘识别
  • 鸿蒙OSUniApp实现个性化的搜索框与搜索历史记录#三方框架 #Uniapp
  • STM32单片机内存分配详细讲解
  • Android Studio中Gradle 7.0上下项目配置及镜像修改
  • 游戏引擎学习第280天:精简化的流式实体sim
  • 毕设设计 | 管理系统图例
  • ET EntityRef EntityWeakRef 类分析
  • 基于EFISH-SCB-RK3576/SAIL-RK3576的消防机器人控制器技术方案‌
  • VSTO(C#)Excel开发进阶2:操作图片 改变大小 滚动到可视区
  • 产品更新丨谷云科技 iPaaS 集成平台 V7.5 版本发布
  • [特殊字符] 苍穹外卖项目中的 WebSocket 实战:实现来单与催单提醒功能
  • Parsec解决PnP连接失败的问题
  • 星巴克中国要卖在高点
  • sqli-labs靶场第七关——文件导出注入
  • ISP中拖影问题的处理
  • 嵌入式学习笔记DAY21(双向链表、Makefile)
  • C++11(2)
  • MySQL DBA数据运维管理经验分享:新手入门快速提升效率的新工具与技巧
  • 基于AH1101芯片的5V升18.6V LED恒流背光供电方案设计
  • 【免费分享】虚拟机VM(适用于 Windows)17.6.3
  • 【优化算法】协方差矩阵自适应进化策略(Covariance Matrix Adaptation Evolution Strategy,CMA-ES)
  • 35页AI应用PPT《DeepSeek如何赋能职场应用》DeepSeek本地化部署与应用案例合集
  • React19源码系列之 Diff算法
  • 国产数据库工具突围:SQLynx如何解决Navicat的三大痛点?深度体验报告
  • OpenCV计算机视觉实战(5)——图像基础操作全解析
  • Apache RocketMQ ACL 2.0 全新升级
  • LabVIEW的CAN通讯测试程序
  • 第 83 场周赛:较大分组的位置、隐藏个人信息、连续整数求和、统计子串中的唯一字符