解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- consistency is the key
解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs- consistency is the key
DeepSeek v3的时候,它模型已经足够强大到能带来consistency稳定性。所以当这个DeepSeek R1 Zero或者DeepSeek R1使用GRPO进行训练的时候,它能够带来consistent的这个训练的过程和结果。在此基础上就可以不断的去改进。所以你就是从强化学习的角度讲,这个consistency它也是至关重要的。也可以这么说,当你的这个基础模型足够强大的时候,你通过模型的方式重新构建了一个我们所说的这个world。而这个world的本身是一致的时候,它就会导致这个reward等相关的一致性,也就导致我们整个的这个policy,我们后面还会谈这些,具体要谈谈policy,这个reward model等等之类的。因为他们都是强化学习里面最基础也是最核心的内容。无论我们从算法层面还是从代码层面,都会跟大家透彻去谈,也会从项目的角度跟大家去谈。那这所有的东西如果你有这个consistentency的话,就我们强化学习在大模型中大模型的这种微调优化,做这个reason model的时候,他就有了基础。
有了这样的一个基础之后,下面就有一个非常有意思的点了,就是我们所说的这个AGI的五大阶段。但这是OpenAI给我们定义的,它具有极大的参考性。不同的技术厂商或者不同的研究机构可能有不同的定义。但是到目前为止,这是一个非常具有典型代表意义的。
关于大模型本身存在的capabilities的角度来讲,它到底会怎么去演化?大家看最开始的时候是chatbot,这个就是可以产生对话,就是你问一个问题,他会给你回复。不过这里面我要稍微说明一下,就是现在绝大多数的这模型,包括ChatGPT等等之类的,是模型本身它是只是一轮对话型的。所谓一轮对话型,大家应该知道对话,你可能类似于你问一个问题,他给你回答,也可能说这个问题,会有很多不同的部分构成,或者问题本身分也很复杂,你表达问题的过程本身,已经经过了多轮的多个turn的交流,目前来看claude 3.5、3.7这些模型对这个multiple chatting这是支持力度最好的。
当然 如果你要操作这个电脑,大家知道在这个模型厂商提供,这种anthropic cloude 在操作电脑方面是非常领先的。因为他很早就提出了computer use的这概念,技术以及具体的实现。而你要操作电脑的时候,很多时候不是说一步完成,它有很多步骤。所以他自己在训练模型的时候,也特别进行了这方面的优化。所谓这方面的优化就是多轮的对话。但大家现在可能使用ChatGPT等等之类的,也可能感觉OK,那你跟他进行多次对话的时候,他可以考虑前面的,但这个也不是模型层面的。
注意,你问他的时候,你是个应用程序,也就是它本身是一个agent的一个概念。好,这个地方我们就不多谈,就总结一句话,就是绝大多数模型他擅长的就是输入输出,他不太擅长多轮的这种交互。Cloude是一个如果涉及多轮交互的话,很理想的一个选择。然后第二个阶段就是我们所说的the reasoners,在这里面说AI can solve a problem,problems as a human level, 这个时候就是我们谈reasoning models的重要性。这里面会涉及很多内容,例如说你在产出结果之前,你是否有思考过程,那你思考之后你是否会在最终产出结果之前是否会有一些验证等等之类的。