当前位置: 首页 > news >正文

⭐CVPR2025 自动驾驶半监督 LiDAR 分割新范式:HiLoTs 框架深度解析

📄论文题目:HiLoTs: High-Low Temporal Sensitive Representation Learning for Semi-Supervised LiDAR Segmentation in Autonomous Driving
✍️作者及机构:
R.D. Lin、Pengcheng Weng、Yinqiao Wang、Fei Wang(西安交通大学软件工程学院);Han Ding(西安交通大学计算机科学与技术学院);Jinsong Han(浙江大学计算机科学与技术学院)
💻开源代码:https://github.com/rdlin118/HiLoTs
🧩面临问题:
标注成本高昂:传统全监督 LiDAR 点云分割方法需大量逐点标注,耗费大量人力与时间,且难以适应新环境, scalability 受限。
时间信息利用不足:现有半监督方法多聚焦点云空间分布,或仅考虑相邻两帧短期时间特征,忽略自动驾驶场景中 “近场物体稳定、远场物体多变” 的长期时间特性。
多模态依赖与性能矛盾:部分 SOTA 方法依赖 LiDAR+Camera 多模态数据,增加硬件与标注成本,且单模态半监督方法性能难以突破。
计算效率与特征表征难题:LiDAR 点云近密远疏,传统体素化方法易导致特征失衡;Transformer 注意力机制应用于大量体素时,计算复杂度高(O (n²)),难以高效处理。

在这里插入图片描述

🎯创新点及其具体研究方法:
1️⃣ 提出 HiLoTs 嵌入单元(HEU):
核心思路:针对 “近稳远变” 特性,分通道处理不同时间敏感性特征。
具体方法:先通过多体素聚合(MVA)将相邻体素归为超体素,减少 Token 数量以降低计算成本;再分两条流处理 —— 高时间敏感流(HTSF)聚焦远场体素(最远 70% 范围),用自注意力捕捉类别与形状快速变化;低时间敏感流(LTSF)处理近场体素,同时与 HTSF 进行交叉注意力交互,实现稳定特征与动态特征的互补优化。
2️⃣ 圆柱体裁剪网络设计:
核心思路:贴合 LiDAR 径向扫描物理特性,解决点云近密远疏的数据不均衡问题。
具体方法:将笛卡尔坐标(x,y,z)转换为柱坐标(ρ,θ,z)(ρ 为径向距离,θ 为方位角);体素大小随 ρ 增大而调整,近场用小体素保留细节,远场用大体素避免稀疏特征缺失;采用 3D ResNet50 提取初始特征,为后续模块提供高质量输入。
3️⃣ 基于 Mean Teacher 的半监督优化框架:
核心思路:充分利用无标注数据,平衡监督学习与无监督学习的特征对齐。
具体方法:构建学生 - 教师双网络 —— 学生网络处理标注数据,采用 Focal Loss 解决类别不平衡问题;教师网络处理无标注数据,通过 L2 一致性损失对齐学生网络预测;教师网络参数采用指数移动平均(EMA)从学生网络缓慢更新(Wt’ = γWt-1’ + (1-γ) Wt),避免训练震荡,最终用教师网络完成推理。
4️⃣ 多维度鲁棒性与效率优化:
核心思路:在性能提升基础上,保障模型在复杂场景下的稳定性与计算效率。
具体方法:通过消融实验验证不同体素化(立方、柱体、球形、圆柱体)、EMA 比率(0.5-0.999)、体素下采样策略(随机、密度、聚合)的影响,最终选择最优配置;在 SemanticKITTI-C 与 nuScenes-C 数据集上验证,模型在雾、雪、激光缺失等扰动场景下仍保持优异性能,鲁棒性媲美专门优化的 SOTA 模型。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/1404559.html

相关文章:

  • Python 数据分析:计算,分组统计2,df.groupby()和grouped.agg()。听故事学知识点怎么这么容易?
  • 告别图片处理焦虑:用imgix实现智能、实时且高效的视觉媒体交付(含案例、截图)
  • 一键掌控三线资源:极简 Shell 脚本实现 CPU·磁盘·内存可视化巡检
  • SRE命令行兵器谱之二:lsof - 解密“端口被占用”与“文件句柄泄漏”的终极侦探
  • MySQL-事务(下)-MySQL事务隔离级别与MVCC
  • 2021-11-10 C++不变初心数
  • ans1语法的一个例子nt5inf.cat
  • 详解Vue2、Vue3与React的Diff算法
  • TuringComplete游戏攻略(2.2存储器)
  • spark.sparkContext.broadcast() 与 org.apache.spark.sql.functions.broadcast 的区别
  • Docker实战避坑指南:从入门到精通
  • 神经网络激活函数:从ReLU到前沿SwiGLU
  • 分分合合,门模块方案又兴起了
  • 用更少的数据识别更多情绪:低资源语言中的语音情绪识别新方法
  • Vue生命周期、工程化开发和脚手架、组件化开发
  • hubert模型代码分析
  • 聚中原·贸全国·达世界,2026郑州台球展8月15至17举办
  • 深入解析Nginx常见模块1
  • 世界模型的典型框架与分类
  • 如何提高存储过程的可维护性
  • wav2vec2.0模型代码分析
  • vite Rendering 10 pagesReferenceError: document is not defined
  • OpenCV 图像形态学操作与边缘检测实战指南
  • 深刻理解软硬件链接
  • 【MogDB】在刚发布的银河麒麟v11上安装MogDB
  • Unity游戏打包——GooglePlay手动传包
  • 微服务架构中的 “双保险“:服务保护与分布式事务解决方案实战
  • 配置vsc可用的C语言环境
  • 【开题答辩全过程】以 基于WEB的茶文化科普系统的设计与实现为例,包含答辩的问题和答案
  • AI融合高等教育:从通识到专业 - 学科+AI人才培养白皮书(下)