当前位置：首页 > news >正文

从规则到大模型：知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

news 2025/8/27 0:18:03

摘要：

本文回顾了关系抽取与实体抽取领域的经典与新兴模型，清晰地梳理了它们的出现时间与核心创新，并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE，大模型抽取等模型的原始论文与权威来源，帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。

一、信息抽取技术的发展时间线

年份	代表模型	核心贡献
2016	BiLSTM‑CRF(Lample et al.)	将双向 LSTM 与 CRF 解码结合，实现端到端序列标注
2016	BiLSTM‑CNN‑CRF(Ma & Hovy)	引入字符级 CNN 捕捉形态特征，增强未登录词处理
2019	KnowBERT(Peters et al.)	将 WordNet/Wikipedia 知识注入 BERT，提升实体与关系抽取
2020	SpanBERT(Joshi et al.)	用 span‑masking 学习片段边界表示，提升 QA 与关系抽取（ArXiv 版本）
2020	LUKE(Yamada et al.)	实体感知自注意力，词与实体同处编码，刷新多项 SOTA
2020	CasRel(Wei et al.)	级联二元标注解决三元组重叠（SEO/EPO）问题
2021	REBEL(Huguet Cabot & Navigli)	基于 BART 的 Seq2Seq 生成式关系抽取，支持 200+ 关系类型
2022	UIE(Lu et al.)	统一 Text‑to‑Structure 生成框架，涵盖实体/关系/事件等（ArXiv 版本）0样本，少样本
2022	提示词抽取	0样本，少样本学习

二、2025 年的主流选型

1. 资源有限时：BiLSTM‑CRF 与 BiLSTM‑CNN‑CRF

依旧是无大规模预训练模型支持时的坚实基线；
在 CoNLL‑2003 上可达 ~91% F1，轻量、易部署。

1.1 BiLSTM‑CRF(pipeline:实体抽取模型）

结构：双向 LSTM 编码器 + CRF 解码层，用以同时建模上下文依赖和标签间转移关系。
性能：在 CoNLL‑2003 英文数据集上，无需外部特征即可达到约 91.2% 的 F1 值，堪比早期 BERT 结果。
适用场景：标注数据量适中、希望用端到端模型而不做大量特征工程时；也适合缺少大规模预训练模型支持的语言或领域。
bilstm+attention(pipeline:关系抽取模型)

1.2 BiLSTM‑CNN‑CRF

结构：在 BiLSTM 前加入字符级 CNN，用以捕捉形态学特征，增强对低频词或未登录词的处理能力。
性能：同样能在 CoNLL‑2003 上达到约 91.2% F1，在形态丰富的语言（如医学、生物领域）中通常略优于纯 BiLSTM‑CRF。
适用场景：字符或子词模式重要（如专业术语、黏着语）；模型尺寸或延迟对实时性有严格要求、无法部署大型 Transformer 时。

预训练语言模型（PLM）在 NER 与 RE 中的应用

2. 资源充足时：SpanBERT / LUKE / KnowBERT

SpanBERT 擅长 span 表征，适合联合任务与 QA 管道；
LUKE 一体化 NER+RE 端到端解决方案，需实体链接支撑；
KnowBERT 面向知识密集型领域，KB 注入减少“编造”事实。

2.1 SpanBERT

预训练目标：遮蔽连续 span，并让模型学习该 span 边界的表示，而非单个词。
NER & RE 表现：在 span 选择任务（问答、共指解析）和关系抽取（如 TACRED 加入图网络改进版 DG‑SpanBERT）上均优于 BERT。
适用场景：需精确 span 表征的场景——联合实体关系抽取、问答管道等。

2.2 LUKE

实体感知自注意力：将词与实体都作为输入 token，额外引入实体嵌入，并在自注意力中区分词-词、词-实体、实体-实体的注意力权重。
基准成绩：在 CoNLL‑2003、TACRED（关系分类）和 Open Entity Typing 等任务上均刷新 SOTA，表现稳健。
适用场景：既要做高质量 NER 又要做 RE，一体化端到端系统；当已有高质量实体链接（如维基百科实体）做支撑时效果最佳。

2.3 KnowBERT

知识注入：通过实体链接在预训练阶段将知识库（WordNet、维基百科）事实融合进 BERT 权重。
下游收益：在实体分类、关系抽取、困惑度评估等任务上提升明显，且推理时开销与纯 BERT 相近。
适用场景：知识密集型领域（医学、金融），需要依赖外部 KB 校正模型输出、避免“编造”事实。

3. 重叠抽取场景：CasRel

天然处理单实体／实体对重叠（SEO/EPO），新闻与法律文本场景优选。

3.1. 联合抽取：CasRel

级联二元标注：先用线性+Sigmoid 在 BERT 输出上识别所有可能的“主语” span；再对每个主语，在每个关系类别下独立预测“宾语” span。
重叠关系支持：自然涵盖单实体重叠（SEO）与实体对重叠（EPO）场景，不需额外后处理。
性能表现：在 WebNLG 数据集上约 91.8% F1，NYT10 上约 89.6% F1，与或优于传统流水线方法。
适用场景：关系种类多且三元组重叠严重（如新闻语料）；希望用统一模型替代分步 NER+RE 管道时。