当前位置: 首页 > news >正文

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法

现在我们的核心问题是有一些同学会知道要才能强化学习。为什么才能强化学习?是实现AGI。例如从这个其实你从第一阶段开始以后,就是chatbot,这个阶段开始以后,后续的这每个阶段的核心都是强化学习。为什么是这样?

好,先让大家看一个视频。我们我们来播放一个视频。IT seems to be happening that h IT is uh running a social process in the space, the exchange, trying to the which presses the work Better up with and in the process of creating program, the all is that to know. And so I think in fact one is is Jimmy breath through interest and easy adapt to novelty
在这里插入图片描述
在这里插入图片描述

这里面有很重要的,我不知道大家有没有特别注意到。例如说这个地方有可视化的一个部分,就是他自己在执行或者生成的整个trajectory,或者是这个token sequence的过程中,他会有考虑不同的情况。当然这个情况我们后面再讲强化学习的的时候,都会跟大家透彻的去讲。例如说你可能采用传统的蒙特卡罗搜索的方式等等之类。然后你有这些不同的情况,你显然也会评价他的哪个更好,哪个不是太好。这就会涉及到test time compute。这里面所有的东西其实都是强化学习的内容。

而我们如果要说这个强化学习的内容,我让大家看这个图。如果大家关注ChatGPT的话,就是chat ChatGPT发布的时候就给了这样一幅图,这幅图后面的部分主要就是强化学习本身的算法,以PPO为核心的强化学习这个算法。但我们现在知道无论说是OpenAI还是说google还是说llama还是说DeepSeek等等,大家都十分看重强化学习,尤其在我们现在说的这个test time的阶段。那为什么强化学习可以做的更好,什么做的更好?就是回到我们前面的问题,做这个AGI的五大阶段,为什么?首先这个问题肯定是一个非常关键的一个问题。
在这里插入图片描述
大家看这边是alphago zero的训练过程。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/440947.html

相关文章:

  • 机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值
  • 对抗系统熵增:从被动救火到主动防御的稳定性实战
  • R利用spaa包计算植物/微生物的生态位宽度和重叠指数
  • 序列化和反序列化hadoop实现
  • Math工具类全面指南
  • OpenCV CUDA 模块中用于在 GPU 上计算矩阵中每个元素的绝对值或复数的模函数abs()
  • 量子算法:开启计算新时代的技术密码
  • MATLAB实现振幅调制(AM调制信号)
  • Hadoop-HDFS-Packet含义及作用
  • 通用软件项目技术报告 - 术语词典
  • 【数据分析】从TCGA下载所有癌症的多组学数据
  • 掌握Docker Commit:轻松创建自定义镜像
  • 【MySQL】自适应哈希详解:作用、配置以及如何查看
  • Windows10安装WSA
  • ECharts中Map(地图)样式配置、渐变色生成
  • OracleLinux7.9-ssh问题
  • Windows避坑部署CosyVoice多语言大语言模型
  • CSS Grid布局:从入门到实战
  • 《Python星球日记》 第70天:Seq2Seq 与Transformer Decoder
  • sql练习题
  • springboot + mysql8降低版本到 mysql5.7
  • Java中的异常机制
  • Java 直接内存ByteBuffer.allocateDirect原理与源码解析
  • git切换分支后需要pull吗
  • Spark缓存---cache方法
  • 在Ubuntu24.04中配置开源直线特征提取软件DeepLSD
  • Java 与 Go 语言对比
  • Milvus 视角看主流嵌入式模型(Embeddings)
  • 推荐一个Winform开源的UI工具包
  • 《AI大模型应知应会100篇》第64篇:构建你的第一个大模型 Chatbot