当前位置: 首页 > ai >正文

金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference

---

http://www.xdnf.cn/news/13892.html

相关文章:

  • C. Cherry Bomb
  • SpringBoot 服务器监控 监控系统开销 获取服务器系统的信息用户信息 运行信息 保持稳定
  • Rethinking Coarse-to-Fine Approach in Single Image Deblurring论文阅读
  • 产品哲学:用户收益>操作成本,字节跳动成功的底层逻辑
  • 泰国数码电商系统定制|3C产品详情泰语化+售后管理,适配泰国数码零售
  • 【QT】QTableView自定义样式:仅显示行间隔、隐藏列间隔、表头样式、表格样式、单行选中等
  • python+django/flask成都奥科厨具厂产品在线销售系统
  • Vue中v-if条件渲染的常见陷阱:以金额显示为例
  • Android音视频多媒体开源框架基础大全
  • 基于OpenCV实现实时颜色检测
  • 嵌入式相关开源项目、库、资料------持续更新中
  • Linux 系统性能测试全指南:从磁盘 I/O 到网络带宽的实战方案
  • ArcGIS Pro 3.4 二次开发 - 工作流
  • 【60 Pandas+Pyecharts | 箱包订单数据分析可视化】
  • 数据结构——第二章 线性表之顺序表、单链表
  • NB-IoT-下行基本概率和时频资源分布
  • 城市排水管网液位流量监测系统解决方案
  • 1.14 express小项目 和 用到的 jwt详解
  • 【STM32的通用定时器CR1的CKD[1:0]: 时钟分频因子 (Clock division)】
  • 【PDF】常见纸张字体大小设置指南 / Common Paper Size Font Guidelines
  • 音视频之H.264的句法和语义
  • 基于 Java 的大数据分布式存储在视频会议系统海量数据存储与回放中的应用
  • Flutter Android打包和发布Build APK
  • PROFINET主站S7-1500通过协议网关集成欧姆龙NJ系列TCP/IP主站
  • HarmonyOS 5对React Native有哪些新特性?
  • 50种3D效果演示(OpenGL)
  • Elasticsearch索引wildcard查询
  • C++面试(10)---合并两个排序的链表
  • 历史交易数据涨跌分级
  • 《信号与系统》第 9 章 拉普拉斯变换