LLM评估指标:WSC和WebNLG 是什么
LLM评估指标:WSC和WebNLG 是什么
WSC(Winograd Schema Challenge,维诺格拉德模式挑战)
- 定义:是一种评估人工智能常识推理能力的任务,通过特定句式的句子,让模型判断代词所指代的对象,考验模型对语义、常识和语境的理解。
- 举例:句子“The city councilmen refused the protesters a permit because they feared violence.”(市议员拒绝了抗议者的许可,因为他们害怕暴力。)这里“they”指代谁?需要结合常识(市议员担心出现暴力所以拒绝许可)来判断“they”指“the city councilmen”(市议员)。通过这类句子测试模型的常识推理能力,若模型能准确判断**,说明其在常识理解上有一定能力。**