智能驾驶调研
李想 ai talk
- 人工智能作为工具的几个层级:信息工具、辅助工具和生产工具。现在的LLM 还不能自己做出决策,根据现实目标,迭代更新,达到目的。
- 公司做自研LLM的意义?
- 垂类领域的数据(vision-action)对于通用的模型是非常稀缺的;而且垂类要解决的问题,通常也是通用模型不太会覆盖到的;
- speech 怎么能更好的服务车主【车机状态+音频多模态理解,更加主动提供生成/工具调用/意图理解的能力】
- 常规的语音任务:做好高自然度的交互,充沛的情感,音色克隆等;
- 基于驾驶行为的音频理解:比如判断你的车辆状态(频繁刹车)–舒缓的音乐;疲劳状态–节奏感强的音乐
- 基于环境声音的场景理解: AI识别到鸣笛声,即使驾驶员没注意到,也会立刻静音当前音乐,并在屏幕上高亮显示警报声来源方向;雨天,生成与雨声融合的jazz;鸟叫智能调低声音提示用户聆听;
- 基于车内对话的情绪与意图理解:车内对话打算去附近吃火锅,直接找到推荐店铺;
- 基于兴趣理解记忆的播客/新闻生成、
高精地图 VS 纯视觉方案
- 智能驾驶早期的两版方案
- 依赖高精地图(厘米精度的电子地图,包括车道级信息,交通设施,定位等),降低了感知和决策的难度(定位超精准),但是高精地图的维护成本高,一旦到高精地图没有覆盖的地方,智能驾驶就等于瞎了;
- 纯视觉方案:特斯拉押宝,依赖车本身的视觉信息。可扩展性极强,能够应对动态变化;算法的研发&数据成本高;
规则算法 -> 端到端+VLM->VLA
智能驾驶算法的几个阶段:规则算法 -> 端到端+VLM->VLA(视觉语言行动模型)