当前位置: 首页 > news >正文

智能驾驶调研

李想 ai talk

  • 人工智能作为工具的几个层级:信息工具、辅助工具和生产工具。现在的LLM 还不能自己做出决策,根据现实目标,迭代更新,达到目的。
  • 公司做自研LLM的意义?
    • 垂类领域的数据(vision-action)对于通用的模型是非常稀缺的;而且垂类要解决的问题,通常也是通用模型不太会覆盖到的;
  • speech 怎么能更好的服务车主【车机状态+音频多模态理解,更加主动提供生成/工具调用/意图理解的能力】
    • 常规的语音任务:做好高自然度的交互,充沛的情感,音色克隆等;
    • 基于驾驶行为的音频理解:比如判断你的车辆状态(频繁刹车)–舒缓的音乐;疲劳状态–节奏感强的音乐
    • 基于环境声音的场景理解: AI识别到鸣笛声,即使驾驶员没注意到,也会立刻静音当前音乐,并在屏幕上高亮显示警报声来源方向;雨天,生成与雨声融合的jazz;鸟叫智能调低声音提示用户聆听;
    • 基于车内对话的情绪与意图理解:车内对话打算去附近吃火锅,直接找到推荐店铺;
    • 基于兴趣理解记忆的播客/新闻生成、

高精地图 VS 纯视觉方案

  • 智能驾驶早期的两版方案
    • 依赖高精地图(厘米精度的电子地图,包括车道级信息,交通设施,定位等),降低了感知和决策的难度(定位超精准),但是高精地图的维护成本高,一旦到高精地图没有覆盖的地方,智能驾驶就等于瞎了;
    • 纯视觉方案:特斯拉押宝,依赖车本身的视觉信息。可扩展性极强,能够应对动态变化;算法的研发&数据成本高;

规则算法 -> 端到端+VLM->VLA

智能驾驶算法的几个阶段:规则算法 -> 端到端+VLM->VLA(视觉语言行动模型)

http://www.xdnf.cn/news/1480447.html

相关文章:

  • 智慧灌区系统:科技赋能,让农田灌溉更智能、更高效、更可持续
  • MySQL数据库精研之旅第十七期:深度拆解事务核心(下)
  • 【营销策略算法】关联规则学习-购物篮分析
  • 淘宝拍立淘按图搜索及淘宝API(JSON数据返回)核心解析
  • Python列表:从入门到灵活运用的全攻略
  • [光学原理与应用-425]:非线性光学 - 非线性光学研究的内容:非线性晶体、光波频率的变化
  • Python中list()使用详解及注意事项
  • 微服务的编程测评系统21-项目部署-mysql-nacos
  • Java线程通信
  • ChatGPT下的相关聊天提示词
  • 深度学习:残差网络ResNet与迁移学习
  • 【LeetCode热题100道笔记】二叉树的直径
  • 【杂类】Spring 自动装配原理
  • 基于多级特征编码器用于声学信号故障检测模型
  • 嵌入式学习日记
  • Linux系统编程—进程控制
  • 产品更新与路线图平台ShipShipShip
  • Java中的字符串
  • 提示词工程(Prompt Engineering)的崛起——为什么“会写Prompt”成了新技能?
  • Wisdom SSH 是一款创新性工具,通过集成 AI 助手,为服务器性能优化带来极大便利。
  • 【FastDDS】Layer Transport ( 04-TCP Transport )
  • 数据库中间件ShardingSphere v5.2.1
  • (算法 哈希表)【LeetCode 242】有效的字母异位词
  • 关于 React 19 的四种组件通信方法
  • 十三、计算机领域英语
  • TDengine 时间函数 WEEKOFYEAR() 用户手册
  • 【C++框架#3】Etcd 安装使用
  • Blender 3D建模工具学习笔记
  • LeetCode15:三数之和
  • 《MATLAB 批量把振动 CSV(含中文“序号/采样频率”)稳健转成 .mat:自动解析+统一换算+按 H/I/O/F-rpm-fs-load 命名》