当前位置: 首页 > backend >正文

未来的AI 终端

        最近OpenAI 传出新闻,OpenAI正在收购io,这是一家硬件公司,由前苹果设计总监 Jony Ive 和他任职期间的其他几位工程师创立,其中包括 Scott Cannon、Evans Hankey 和 Tang Tan。

      这笔交易价值近 65 亿美元。作为此次收购的一部分,约有 55 名硬件工程师、软件开发人员和制造专家将加入 OpenAI,其中包括 Cannon、Hankey 和 Tan。收购后的首批设备预计将于 2026 年推出。

 下面是网络上露出的OpenAI AI 设备的概念机。最终产品会有改动。

在这之前,也有许多人在设计AI 终端交互设备的努力。

Rabbit R1

 Humane AI Pin

        尽管许多产品产品以失败告终,但是就像以前Apple 公司乔布斯坚持做newton 笔控PAD 一样,最后将会催生新的交互设备。支持这种创新的火花,不仅需要AI工程师的思考,更需要社会学,心理学家的想象力。

 OpenAI IO HW1

 OpenAI IO HW1 将由两个基本组件组成:接收器接口。

        接收器,也就是主模块,主模块保留了当前智能手机的一些关键功能——显示屏、连接和基本应用程序——并由本地人工智能提供支持。大部分处理都在设备上进行:从识别语音命令到理解基本思维模式和简单命令的逻辑解释。它仅在必要时连接到云,例如当需要执行更复杂的任务时,例如广泛的文档分析、复杂的查询或与外部源的集成。

        在实践中,这意味着以下内容:如果您认为“下周买一张去东京的机票”,那么 HW1 会寻找可能性,选择最好的报价 - 如果您通过一个眼神或轻微的肌肉运动(或只是一个心理确认)开绿灯,您预订了航班。

耳接口(Ear Interface)

         OpenAI IO HW1 设备的第二部分将更加微妙:便携式接口,将放置在耳朵内或耳朵周围。它的功能是什么?读取您的大脑信号(使用非侵入性 EEG 传感器),检测您何时想说某事或发出命令,并将该想法发送给人工智能进行处理。

        这不会是您“佩戴”的设备,而是您的一部分。谨慎、安静、时刻准备。这是一座连接你的意识和比任何星座都更了解你的算法之间的桥梁。

         这不会是您“佩戴”的设备,而是您的一部分。谨慎、安静、时刻准备。这是一座连接你的意识和比任何星座都更了解你的算法之间的桥梁。

未来的耳语:思想控制和心灵感应,与 AI 相结合

        这听起来像科幻小说,但 OpenAI 正在探索神经集成的可能性。无需打字、无需说话的交流。只是有想法。这意味着 ChatGPT 甚至在你知道自己想要什么之前就理解了你。(或者至少他认为他知道。有了 OpenAI IO HW1 设备,这完全成为现实。

        Meta 已经在用脑电图耳机和 EMG 腕带测试类似的解决方案。一个界面,甚至在您说出字母 “A” 之前就检测到您正在考虑字母 “A”。下一步?它识别情绪、冲动,甚至可能不纯洁的想法。

背后的基础设施和商业模型

         我们几乎又一次回到了互联网的早期阶段。未来充满了无限的可能,却找不到当下的路!进入新技术时代的早期成本高昂,互联网时代是网络建设,诞生了cisco,华为,Sun 这些伟大的公司。这一次是算力中心建设,英伟达成了明星企业。高昂的推理成本,阻碍了大规模的推广。AI 服务并不能通过广告来摊销成本(所谓的互联网思维)。付费服务成为唯一可行的商业模式。另一方面,阻碍AI 广泛应用的另一个问题是安全性和隐私问题。人们不愿意将自己的所有信息交给AI 服务商。

     解决这些问题的主要方法是混合AI 。

混合AI架构

        混 合A I是A I的未来。随着生成式A I正以前所未有的速度发展1以及计算需求的日益 增长2,A I处 理必 须 分 布 在 云 端 和 终 端 进 行,才 能 实 现A I的规模化扩展并发挥其最 大 潜能 ——正如传统计算从大型主机和瘦客户端演变为当前云端和边缘终端相结 合的模式。与仅在云端进行处理不同,混 合A I架构在云端和边缘终端之间分配并 协 调A I工作负载。云端和边缘终端如智能手机、汽 车 、个 人 电 脑 和 物 联 网 终 端 协 同 工 作,能 够 实 现 更 强 大 、更 高 效 且 高 度 优 化 的A I。 

以语音对话为例

        在基于终端感知的混合AI场景中,在边缘侧运行的模型将充当云端大语言模型(类 似 大 脑 )的 传 感 器 输 入 端( 类 似 眼 睛 和 耳 朵 )。例 如,当 用 户 对 智 能 手 机 说 话 时 , Whisper 等自动语音识别(ASR)的AI模型将在终端侧运行,将语音转为文字,然后 将其作为请求提示发送到云端。云端将运行大语言模型,再将生成的文本回复发回 终端。之后,终端将运行文本生成语音(TTS)模型,提供自然免提回答。将自动语音 识别和文本生成语音模型工作负载转移至终端侧能够节省计算和连接带宽。

        随着大 语言模型变为多模态并支持图像输入,计算机视觉处理也可以在终端上运行,以进 一步分流计算任务并减少连接带宽,从而节省成本。 在更先进的版本中,隐私将得到进一步保护,终端侧AI能够承担更多处理,并向云 端提供经过改进且更加个性化的提示。借助终端侧学习和终端上的个人数据,比如 社交媒体、电子邮件、消息、日历和位置等,终端将创建用户的个人画像,与编排器 (orchestrator)程序协作,基于更多情境信息提供更完善的提示。例如,如果用户让手 机来安排与好友会面的时间并在喜爱的餐厅预订座位,编排器程序了解上述个性化信 息并能够向云端大语言模型提供更佳提示。编排器程序可在大语言模型缺乏信息时 设置护栏并帮助防止产生“AI幻觉 ”。对于较简单的请求,较小的大语言模模型可在终端侧运行,而无需与云端交互,这类似于以终端为中心的混合AI。

交互流程:

这种架构可以为:

   在手机或者终端设备上完成Speech to Text 和Text to Speech 的任务,如果终端设备算力足够,可以部署一个小AI模型。

        在手表那样的穿戴设备上部署AI 算力可能是困难和昂贵的。可以在边缘侧安装一个本地AI Service 设备,比如在家里面安装一个 AI 设备,保存自己的数据,提供基本AI的服务,是否可以考虑开发AI 的NAS 设备? 

   也可以像上面图片的概念一样,配备一个主设备和一个或者两个接口设备。

        目前DIY 行业中流行的小智语音助手也是这种架构,IO 设备由低成本的ESP32 实现,然后在云端或者本地运行一个类似AI Hub 的服务,MAIN设备访问云端AI 服务。 IO设备上带有语音输入和扬声器,IMU等传感器,一个摄像头,一个LCD 触控屏(我主张带),少量的按键。网络接口包括wifi和蓝牙。

    是否会将手机作为边缘AI Hub 呢? 也是一种可能。

 结论

        大语言模型的出现,必然将会引起交互方式的改变,但是不知道什么时候是“AI 硬件时刻”,探索是必要的。

http://www.xdnf.cn/news/12040.html

相关文章:

  • 系统性学习C语言-第十四讲-深入理解指针(4)
  • 《仿盒马》app开发技术分享-- 商品搜索页(顶部搜索bar热门搜索)(端云一体)
  • 中级统计师-经济学基础知识-第一章 经济学基础
  • android与Qt类比
  • 重要通知:6月申报纳税期限延至6月16日(附2025年办税日历 图文版)
  • 树莓派超全系列教程文档--(53)如何使用 SCP 共享文件
  • 嵌入式开发之STM32学习笔记day18
  • 手写Promise实例方法finally
  • 肺癌靶向治疗耐药困境下的新探索
  • LLM应用开发(九)- 幻觉及如何缓解
  • Authentication failed(切换了新的远程仓库tld)
  • 区块链技术发展现状与应用前景分析
  • Rocket客户端消息确认机制
  • JAVA:String类详解
  • 华为云Flexus+DeepSeek征文|Flexus云服务器单机部署+CCE容器高可用部署快速搭建生产级的生成式AI应用
  • (LeetCode 每日一题)3403. 从盒子中找出字典序最大的字符串 I (贪心+枚举)
  • 12.3Swing控件1
  • Java并发编程实战 Day 7:并发集合类详解
  • Docker轻松搭建Neo4j+APOC环境
  • 《PyTorch Hub:解锁深度学习模型的百宝箱》
  • 物流数据接口新玩法:跨境订单处理效率提升200%
  • echarts显示/隐藏标签的同时,始终显示饼图中间文字
  • 简数采集技巧之快速获取特殊链接网址URL方法
  • Playwright 测试框架 - Python
  • 软件工程专业的本科生应该具备哪些技能
  • 【Bluedroid】蓝牙启动之gatt_init 流程源码解析
  • DrissionPage爬虫包实战分享
  • 汽车加气站操作工证考试重点
  • 文献阅读|基于PSMA PET/CT与mpMRI多模态深度学习预测前列腺癌的不良病变
  • Spring AI 之工具调用