当前位置: 首页 > backend >正文

【论文阅读笔记】HaDes幻觉检测benchmark

0 论文信息

  • 题目:A Token-level Reference-free Hallucination Detection Benchmark for
    Free-form Text Generation
  • 作者:Tianyu Liu, Yizhe Zhang, Chris Brockett, Yi Mao, Zhifang Sui, Weizhu Chen, Bill Dolan
  • 会议:ACL,2022
  • 链接:https://arxiv.org/abs/2104.08704

1 背景

LLM幻觉检测现有方法缺点:

  • 依赖句子或文档级参考文本(oracle reference),文本生成任务不容易有 reference 来判断是否为幻觉;
  • 检测粒度较粗,无法实时判断 token 是否出现幻觉。

2 论文贡献

2.1 数据集构建

提出 令牌级(token-level)、无参考(reference-free) 的幻觉检测任务,无需依赖外部参考文本,直接检测文本中单个令牌的幻觉风险。同时,构建了上述任务的数据集 HaDes。构建流程如下:

  • raw data:英文Wiki百科文本片段
  • 扰动文本:对原始文本进行内容篡改以引入幻觉。使用BERT进行干扰,保证文本的流畅性并且在词汇上多样化。主要有三个阶段:MASK、REPLACE、RANK。
    • MASK:使用[MASK] token从第三句话开始随机预定义的比率p随机mask掉单词(默认mask掉一个,除非spacy实体识别为更长的长度,即实体为最小的mask单元),不mask停用词或标点符号
    • REPLACE:利用BERT-base来预测mask掉的部分,为了更好的流畅性,是从左到右预测mask文本的,实验中保持了干扰前后token数量相同,并且直接强制不生成原始token。比较了贪婪、topp、topk几种解码策略,每种方法采样30个文本,最后选择了topk(k=10),因为多样性(生成不同token的数量)和流畅性的权衡最好。
    • RANK:对每个raw text生成20个候选扰动文本,使用GPT-2根据困惑度排序,保留困惑度最低的文本,保证流畅性和句法正确性。
  • 数据标注:通过人工标注验证扰动后的文本是否存在幻觉。为了降低标注成本同时解决数据中的标签不平衡问题,采用 *迭代模型闭环(iterative model-in-loop) 策略。以 BERT 为基础模型,利用前一轮标注数据迭代训练幻觉检测模型,舍弃模型预测概率极高或极低的样本(阈值随轮次调整),保留高不确定性样本,同时使用 RoBERTa 模型计算扰动文本与原始文本的余弦相似度,过滤相似度 > 0.9 的改述样本。与此同时,通过子采样降低标注中的 H 类标签。
  • 数据分析:得到幻觉分布规律 (如常见于名词)

2.2 baseline model

Featrue-based:平均单词概率、平均熵(这两个用BERT-based算)、TF-IDF、PPMI、POS(比如动词、形容词的区别)、NER(是否是命名实体)。然后使用逻辑回归LR和支持向量机SVM来学习。

Transformer-based:BERT、GPT-2(只能用于在线设置)、XLNet和RoBERTa。从最后一层的hidden-state中最大池化,然后映射到0-1标签熵,训练时就用交叉熵。

最优参数:使用最大池化而非平均池化、使用2层隐藏维数为h / 2的MLP,将模型参数冻结,只微调分类器。
评价指标:accuracy, precision, recall, F1(p, r, F1分H和N计算), AUC, G-Mean, BSS
baseline性能
上下文长度对模型性能的影响如下:
在这里插入图片描述
离线模式指可以双向阅读上下文,在线模式指只能阅读上文的历史记录。

http://www.xdnf.cn/news/13376.html

相关文章:

  • GISBox如何导入Revit格式的BIM数据?
  • 案例解读:交安与建安安全员 C 证在实践中的差异
  • 电路图识图基础知识-电机顺序启动控制电路解析(二十二)
  • 期末考试复习总结-《从简单的页面开始(下)》
  • NLP学习路线图(三十八): 文本摘要
  • 3分钟配置好nacos集群(docker compose)
  • 接口测试与接口测试面试题
  • 讲讲JVM的垃圾回收机制
  • 【八股消消乐】构建微服务架构体系—熔断恢复抖动优化
  • 认识 Python 【适合0基础】
  • 魔兽世界正式服插件与宏-敏锐盗贼实用宏探索(3)-起手奥义【袭】之突如其来
  • C++ Programming Language —— 第1章:核心语法
  • SpringBoot自动化部署实战
  • Python主动抛出异常详解:掌握raise关键字的艺术
  • 云原生核心技术 (6/12): K8s 从零到一:使用 Minikube/kind 在本地搭建你的第一个 K8s 集群
  • 基于STM32F103C8T6单片机双极性SPWM逆变(软件篇)
  • 软件定义汽车的转型之路已然开启
  • MH2213 32位Arm® Cortex®-M3 Core核心并内嵌闪存和SRAM
  • 模型上下文协议(MCP)实践指南
  • 医院系统源码核心功能开发探索:问诊、陪诊、预约挂号、电子处方
  • 华为仓颉语言初识:并发编程之同步机制(下)
  • 分布式ID最新最佳实践?UUIDv7介绍
  • 进程间通信详解(二):System V IPC 三件套全面解析
  • API网关是什么?原理、功能与架构应用全解析
  • 单位的oa系统能不能在家电脑登陆?办公网址在手机上怎么访问?
  • 如何xml序列化 和反序列化类中包含的类
  • tomcat的websocket协议升级。如何从报文交换变成全双工通信?session对象的注册和绑定?
  • nginx配置中有无‘‘/’’的区别
  • mybatis 关联映射---一对一关联映射
  • LAMP-Cloud与RuoYi-Cloud技术架构对比