当前位置: 首页 > news >正文

标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝


Agentar-Fin-R1 的开发pipline可概括为 “数据 → 训练 → 评估 → 归因 → 迭代” 五个闭环阶段,每一阶段都有明确输入、处理逻辑和输出。

一、数据构造

Agentar-Fin-R1 的数据构造围绕 Label SystemMulti-Agent 可信合成 展开的三级流水线:

1.1 Label System(任务标签体系)
  • 两类标签:每个样本被打上 (Scene, Task)
    • Scene:银行、证券、保险、信托、基金等业务场景
    • Task:NER、意图识别、槽位填充、消歧、咨询式问答等任务类型
  • 非正交稀疏性:并非所有 Task 都适用于所有 Scene,真实还原金融任务分布。
1.2 三级数据治理
层级关键动作目的
Source权威金融机构/监管文件 → NER/POS → 标准化 → 脱敏/脱毒 → 知识精炼保证来源可信
Synthesis双路线合成
① Task-oriented 知识引导生成**(Query, Thinking, Answer)**
② Self-Evolution 指令进化(多样性、复杂性、正确性三重筛选)
保证逻辑可验证
Verification多模型一致性投票 + 人工金融专家抽样 + Rating Model 打分 → 去重、去污、去泄露保证质量可靠

最终输出 Fin-R1-300K 高质量金融推理三元组,作为后续训练的“golden data”。

二、训练框架
2.1 加权训练框架

训练金融大型语言模型(LLMs)需要解决金融任务固有的异质性和复杂性,这些任务在难度和领域特定要求方面各不相同。传统训练方法对所有训练样本一视同仁,没有考虑到某些任务明显比其他任务更具挑战性的事实。因此,模型可能过度拟合更简单、更常见的任务,而在对现实金融决策和风险评估至关重要的复杂任务上表现欠佳。不同任务难度不同,用 pass@k 量化困难度,动态调整样本权重。

  • 三步

    1. 对每个 Task Label 采样一批题目 → 当前模型 & 多个参考模型分别生成 k 条答案
    2. 计算 pass@k,难度越高权重越大;若显著弱于参考模型,再额外加权
    3. 引入 指数平滑 + 下限裁剪 保证训练稳定
  • 损失函数
    SFT:

2.2 Two-Stage Pipeline(两阶段递进)
阶段目标方法数据
Stage 1金融知识注入大规模 SFT + 加权训练Fin-R1-300K + 通用推理
Stage 2难题攻坚GRPO(强化)+ 针对性 SFT困难子集 + 错误归因补充数据

优点:Stage1 快速获得“通才 + 金融知识”底座,Stage2 用小而精的数据做“专家提升” ,新业务场景只需 Stage2 轻量微调即可上线。

2.3 Attribution Loop(归因-再训练闭环)

归因循环是一种后训练机制,它通过将错误追溯到特定金融场景和任务来改进模型,并通过动
态资源分配实现有针对性的数据采样和模型增强。Pass@1 归因框架归因循环采用上述二维标签框架对预测错误进行分类,找出性能洼地。这一部分主要看下数据回滚与再生思路:

  • 回滚:若本轮 pass@1 下降 → 直接 revert 上一轮数据
  • 再生:连续 3 轮下降 → 触发 Self-Evolution Agent,按新的复杂度模板重新生成样本

工程侧:每轮评估后自动写 attribution.json,包含(l, pass@1, Δ, η, π, allocated_samples)训练脚本读取该文件 → 更新数据加载器 → 继续训练,整个循环跑在 32 张 A100 上,约 2 小时完成一轮。

三、评估

为了衡量真实落地能力,论文提出了 Finova(Financial Nova)评测集,覆盖三大维度:

维度子任务样本数评测点
Agent Capabilities意图识别、槽位识别、工具规划、表达生成768对话系统必备能力
Complex Reasoning金融数学 + 代码理解 + 推理306复杂决策链
Safety & Compliance安全风险识别、监管合规判断200高风控场景
结果

Agentar-Fin-R1: Enhancing Financial Intelligence through
Domain Expertise, Training Efficiency, and Advanced
Reasoning,https://arxiv.org/pdf/2507.16802v2

repo:代码暂未开源

http://www.xdnf.cn/news/1199845.html

相关文章:

  • Unity Catalog与Apache Iceberg如何重塑Data+AI时代的企业数据架构
  • JavaEE初阶第十二期:解锁多线程,从 “单车道” 到 “高速公路” 的编程升级(十)
  • LeetCode 239:滑动窗口最大值
  • 模拟实现python的sklearn库中的Bunch类以及 load_iris 功能
  • RocksDB 高效采样算法:水塘抽样和随机寻址
  • WAIC 2025 热点解读:如何构建 AI 时代的“视频神经中枢”?
  • [N1盒子] 斐讯盒子N1 T1通用刷机包(可救砖)
  • SpringBoot 整合 Langchain4j AIService 深度使用详解
  • Valgrind Helgrind 工具全解:线程同步的守门人
  • 编程语言Java——核心技术篇(五)IO流:数据洪流中的航道设计
  • JavaWeb(苍穹外卖)--学习笔记13(微信小程序开发,缓存菜品,Spring Cache)
  • Java中get()与set()方法深度解析:从封装原理到实战应用
  • 8. 状态模式
  • 零基础 “入坑” Java--- 十五、字符串String
  • 一场关于电商零售增长破局的深圳探索
  • 金融科技中的跨境支付、Open API、数字产品服务开发、变革管理
  • 【Ollama】大模型本地部署与 Java 项目调用指南
  • 字符串是数据结构还是数据类型?
  • 基于Prometheus+Grafana的分布式爬虫监控体系:构建企业级可观测性平台
  • Git Commit 生成与合入 Patch 指南
  • java--WebSocket简单介绍
  • 多模态视觉语言模型FILA-细粒度分辨率融合策略
  • [10月考试] B
  • Flutter 生命周期介绍
  • 基于Java的KTV点歌系统的设计与实现
  • 电商项目_核心业务_分布式ID服务
  • [STM32][HAL]stm32wbxx 超声波测距模块实现(HY-SRF05)
  • selenium完整版一览
  • 三、搭建springCloudAlibaba2021.1版本分布式微服务-springcloud loadbalancer负载均衡
  • git 提交时排除一个或多个文件