当前位置: 首页 > java >正文

Gartner《AI Infrastructure WithKubernetes参考架构》学习心得

一、Kubernetes 在 AI 基础设施中的重要性

随着 AI 技术的发展,企业对于能够支持 AI 和生成式 AI(GenAI)工作负载的基础设施需求不断增加。尽管通常建议优先选择公有云来运行 AI 工作负载,但某些场景下需要自托管基础设施。据预测,到 2028 年,超过 20% 的企业会在本地数据中心运行 AI 工作负载,而 2025 年初这一比例还不到 2%。这凸显了像 Kubernetes 这样厂商中立的平台的重要性,它能够为 AI 工作负载提供可移植性。云原生倡议推动企业构建可扩展且可靠的 AI 支持基础设施,而 Kubernetes 作为基础,其在支持数据科学、AI 和机器学习(ML)方面的重要性也得到了 Magic Quadrant for Data Science and Machine Learning Platforms 中各供应商的印证,多数供应商都利用 Kubernetes 来增强其云或本地产品。

二、Kubernetes 支持的 AI 基础设施架构用例

  • 平台适应性 :Kubernetes 的可扩展性使集群能够根据 AI 工作负载类型被设计和实施成专门平台,通过多种专门操作符和全面工具链抽象其复杂性,提高用户体验和生产力,让集群能快速重新用于不同 AI 工作负载。

  • 数据探索、原型设计和实验 :支持 AI 价值流的所有阶段,可提供现成的开发环境,方便获取专门硬件,以自助方式为编码、评估、基准测试或测试目的提供开发环境。

  • 可扩展的 AI 训练 :能够为训练工作负载构建强大且弹性的执行环境,支持优化调度和自动扩展。其行业认可度高,通过专门驱动程序可与高速、低延迟网络技术集成,满足 AI 训练数据密集型和计算密集型需求。

  • 多功能的 GenAI 推理 :到 2027 年,超过 60% 的 AI 加速器将支持公有云和本地的推理模型。采用 Kubernetes 等厂商中立平台,可为预训练模型提供可移植性,并利用丰富框架和操作符生态系统来执行和提供预训练模型供最终用户使用。

  • 强大的 AI 服务 :模型服务是将预训练模型暴露给生产环境,使其可供实时预测或推理使用。大多数推理框架虽具备服务功能,但并非所有实现都可被视为生产级。借助 Kubernetes,可通过启用大型语言模型(LLM)路由和实施 AI 网关及安全护栏,来丰富 AI 服务体验。

三,基于 Kubernetes 的 AI 架构

1. 架构示意图的呈现

图 1(Architecture Diagram)展示了以 Kubernetes 为基础构建的 AI 基础设施的参考架构,包含多个不同领域的生产级 AI 基础设施组件,以支持 AI 工作负载。

2. 核心组件及其作用

  • AI Compute(AI 计算

http://www.xdnf.cn/news/7604.html

相关文章:

  • 如何利用易境通代购商城系统快速搭建、装修商城页面?
  • 认知不确定性(Epistemic Uncertainty, EU)和随机不确定性(Aleatoric Uncertainty, AU)
  • Linux 磁盘扩容实战案例:从问题发现到完美解决
  • C# 使用 OpenCV 基础
  • 代码随想录算法训练营
  • Oracle基础知识
  • 绿色云计算:数字化转型与可持续发展的完美融合
  • C#学习第24天:程序集和部署
  • msq基础
  • 【Python装饰器深潜】从语法糖到元编程的艺术
  • leetcode 153. Find Minimum in Rotated Sorted Array
  • USB学习【13】STM32+USB接收数据过程详解
  • 跟踪AI峰会,给自己提出的两个问题。
  • 任务分配不均,如何平衡工作负担?
  • 服装收银系统哪个更优?秦丝进销存系统深度解析
  • 云原生攻防3(Docker常见攻击方式)
  • 武汉科技大学人工智能与演化计算实验室许志伟课题组参加第八届智能优化与调度学术会议
  • Riverpod应用场景分析
  • python文本处理 2024年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • 深挖navigator.webdriver浏览器自动化检测的底层分析
  • 考研系列-408真题计算机组成原理篇(2020-2023)
  • 六足连杆爬行机器人的simulink建模与仿真
  • PDF处理控件Aspose.PDF教程:以编程方式将 PDF 导出为 JPG
  • Python----循环神经网络(WordEmbedding词嵌入)
  • MCP Python SDK学习指南
  • HarmonyOS5云服务技术分享--账号登录文章整理
  • 栈和队列的模拟实现
  • 网络基础知识
  • 医疗影像中,DICOM点云、三角面片实体混合渲染(VR)
  • 单片机复用功能重映射Remap功能