当前位置: 首页 > news >正文

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法AlphaGo

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-强化学习算法AlphaGo

大家看这边是alphago zero的训练过程。
在这里插入图片描述

我说的训练过程是随着时间的推移的变化,你看见这个红点了, 其实你看你,你首先应该最开始应该关注的是这个绿色的点。这个绿色的点是代表了什么?你从最开始的时候,大家注意,这个叫alphago zero,他这边是zero的这种状态。它基本的一种意思是说我没有前置的一些,比如说cold start等等之类,它直接使用强化学习的方式。大家可以看啊,它它这个红色点会在几个不同的阶段,给你标注出它的关键的这个转折点。

在这里插入图片描述
在最开始的时候,他并没有prior knowledge,所以他开始很糟糕。然后三天之后,他就具备了这个alphago 的能力,这就相当于人类的顶级的水平了。然后21天之后他就完成了这个alphago master , 他采用了一些例如SFT等相关的内容。然后40天以后他超越了所有的版本的alphago 的内容,所以这个是强化学习。

大家可以看随着时间的推移,他能够不断的自我的成长学习。当然所谓的成长的学习就是不断的进行explore和exploit。然后他不断的找最佳的模式,或者我们统称之为学习的过程,叫learn from experience。这是google的 deep mind给我们的具体的信息,在这幅图中这是DeepSeek R1 zero给我们的信息。
在这里插入图片描述
随着我们训练的不同,或者说您可以认为随着训练实践的不断的增加,然后他的这个reason capability越来越强。但在这里代表reasoning capability,你可以认为是length,就是他输出的这个长度,就思考的过程越来越多。但可能会有人说,你思考过程越来越多,不一定代表这个reason capability越来越强,这个说法没问题,但从模型的角度讲,你可以认为这个趋势是正确的。所谓趋势就是当你能够思考的内容越来越多,思考的步骤越来越多,维度越来越多的时候,他的推理能力越来越强。

在这里插入图片描述

http://www.xdnf.cn/news/454231.html

相关文章:

  • sqlalchemy库详细使用
  • 【C++】17. 多态
  • AI智能体应用平台-智能体定制-企业级agent开发平台哪个更好?
  • 【嵌入式开发-按键扫描】
  • 从构想到交付:专业级软开发流程详解
  • c++中的函数(默认参数,占位参数,重载)
  • Arduino使用红外收发模块
  • MySQL基础之开窗函数
  • 嵌入式(c语言篇)Day9
  • 基于nacos2.5.1的java微服务项目开发环境配置简介
  • Spyglass:跨时钟域同步(同步单元)
  • Gin 框架指南(代码+通俗解析版)
  • 2025前四月新能源汽车出口增长52.6%,外贸ERP数字化助力汽企持续跃升
  • 给 DBGridEh 增加勾选用的检查框 CheckBox
  • 通用软件项目技术报告 - 导读I
  • C++ 并发编程(1)再学习,为什么子线程不调用join方法或者detach方法,程序会崩溃? 仿函数的线程启动问题?为什么线程参数默认传参方式是值拷贝?
  • 阿里的库存秒杀实现与Inventory Hint技术解析
  • Windows系统Anaconda/Miniconda的安装、配置、基础使用、清理缓存空间和Pycharm/VSCode配置指南
  • Linux系统编程——fork函数的使用方法
  • idea插件使用
  • Prometheus 的介绍与部署(入门)
  • Spring 的 异常管理的相关注解@ControllerAdvice 和@ExceptionHandler
  • 2011-2019年各省总抚养比数据
  • 【GESP真题解析】第 5 集 GESP一级 2023 年 3 月编程题 2:长方形面积
  • Python实例题:Python抓取相亲网数据
  • Maplibgre-gl 学习1 初识
  • leetcode刷题日记——旋转链表
  • 深入理解Java HotSpot中的即时编译
  • 规控算法分类
  • 【Vue.js 的核心魅力:深入理解声明式渲染】