当前位置：首页 > ds >正文

LLM评估指标：WSC和WebNLG 是什么

ds 2025/7/4 9:37:30

LLM评估指标：WSC和WebNLG 是什么

WSC（Winograd Schema Challenge，维诺格拉德模式挑战）

定义：是一种评估人工智能常识推理能力的任务，通过特定句式的句子，让模型判断代词所指代的对象，考验模型对语义、常识和语境的理解。
举例：句子“The city councilmen refused the protesters a permit because they feared violence.”（市议员拒绝了抗议者的许可，因为他们害怕暴力。）这里“they”指代谁？需要结合常识（市议员担心出现暴力所以拒绝许可）来判断“they”指“the city councilmen”（市议员）。通过这类句子测试模型的常识推理能力，若模型能准确判断**，说明其在常识理解上有一定能力。**

WebNLG（Web Natural Language Generation，网络自然语言生成）

http://www.xdnf.cn/news/4414.html

相关文章：

EASM外部攻击面管理平台

8.软考高项（信息系统项目管理师）-沟通管理

相同的数（简单）

HCIP(OSPF的优化)

LeetCode：二叉树的中序遍历

【C++核心技术深度解析：从继承多态到STL容器】

聊天助手提示词调优案例

力扣热题100，力扣49.字母异位词分组力扣128.最长连续序列力扣.盛水最多的容器力扣42.接雨水(单调栈)

城市开发杂志城市开发杂志社城市开发编辑部2025年第5期目录

免费开源且离线的图片放大工具

RS485/modbus转profibus DP转换网关

TCP 协议设计入门：自定义消息格式与粘包解决方案

英语二大作文

芝法酱躺平攻略（22）——rabbitmq安装和使用（二）

42 python http之urllib库

论软件的可靠性设计

编码器型与解码器型语言模型的比较

基于亚博K210开发板——独立按键中断实验

Android开发-创建、运行、调试App工程

数字中国 | 史宾格荣获 “2025数字中国创新大赛”银奖

安卓基础（点击按钮动态添加视图到容器）

ABAQUS三维CT重建插件CT2Model3D V2版本

MySQL初阶：基础增删改查（CRUD）

docker stack deploy多服务集群堆栈搭建详细指南

实现滑动选择器从离散型的数组中选择

Prometheus的安装部署

create-vue搭建Vue3项目（Vue3学习2）

Transformer面经

JavaScript性能优化实战：从瓶颈分析到解决方案