当前位置：首页 > java >正文

【NLP 67、知识图谱】

java 2025/7/14 0:12:27

你像即将到来的夏季一样鲜明，

以至于我这样寡淡的生命，

竟山崩般为你着迷

—— 25.4.18

一、信息 VS 知识

二、知识图谱

1.起源

于2012年5月17日被Google正式提出，初衷是为了提高搜索引擎的能力，增强用户的搜索质量以及搜索体验

在用户搜索问题时，直接给用户给出答案，将用户搜索到的“信息”直接转化为“知识”给用户显示

现在的大语言模型借助搜索引擎汇总信息，直接总结出知识汇报，这也是大语言模型可以代替搜索引擎的地方所在

2.定义

知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。存储一些结构化数据

现在的知识图谱已被用来泛指各种大规模的知识库

3.知识图谱里存的是什么

三元组是知识图谱的一种通用表示方式（互相相关的、足够多的三元组聚合在一起）

三种基本形态：

① 实体(head entity) - 关系(relation) - 实体(tail entity)，例：姚明 – 妻子 – 叶莉

② 实体 - 属性 - 属性值，例：姚明 – 身高 – 226cm

③ 实体 - 标签 - 标签值，例：姚明 – 标签 – 运动员（为保持格式相似）

4.知识图谱的构建

Ⅰ、定义实体、属性、关系

如何决定哪些是实体，哪些是属性，哪些是关系？

—— 取决于图谱的使用方式和想要完成的任务

例：

关系查找：xx的老婆的父亲是谁？

A：xx（实体） B：xx的老婆（实体：即作为头也作为尾） C：xx的老婆的父亲

属性对比：xx的身高比yy高多少？

A：xx（实体） B：xx的身高（属性） C：yy（实体） D：yy的身高（属性）

【关系的查找和跳转】：属性值无法作为头实体出现，因为涉及到了实体的跳转

【两种属性的比较】：如果任务不需要实体的跳转：也可以用实体 - 属性 - 属性值

Ⅱ、体系架构

数据来源（多个三元组）：① 结构化的数据、② 半/非结构化的数据（从文本中进行知识抽取）

Ⅲ、关键技术

① 知识抽取：非结构化 —> 结构化（实体抽取、关系抽取、属性抽取）

② 知识融合：消歧提升数据质量

③ 知识推理：挖掘扩充或补全数据（对于知识的一种补充）

④ 知识表示：向量化

三、知识挖掘 / 抽取

面向非结构化数据，通过自动化的技术抽取出可用的知识单元

① 实体抽取 ② 关系抽取 ③ 属性抽取

1.实体抽取 NER

实体是知识图谱中的最基本元素，其抽取的完整性、准确率、召回率等将直接影响到知识库的质量。

命名实体识别：① 基于规则和词典的方法 ② 基于机器学习的模型预测方法(序列标注问题)

2.关系抽取

Ⅰ、限定领域关系抽取

关系类型有限，已知

pipeline：① 传入一段文本，对这段文本做序列标注，找到文本中所有的实体；② 将这段文本和识别出的任意两个指定实体同时传入文本分类模型，得到这两个实体基于这段文本的关系；计算过程：文本和两个指定实体过Bert后得到三个向量，第一个向量是整体文本的信息；第二个向量是第一个指定实体的信息；第三个向量是第二个指定实体的信息；三个向量求平均，再接softMax层做分类；向模型强调了两个指定实体的信息

联合训练：联合训练是一种将实体识别和关系分类在一个统一框架内同时进行的技术，能更好地捕捉两者之间的相互作用，有效提高抽取的准确性和效率；通过建立统一的模型，同时对实体和关系进行建模，在训练过程中让实体识别和关系分类两个任务共享参数或特征表示，使得它们能够相互影响、相互促进。