知识图谱的初步探索
目录
一、有监督、半监督、无监督
二、知识图谱
1、定义
2、分类
3、如何构建?
数据来源
构建步骤
4、应用场景
(1)智能搜索与推荐
(2)智能问答系统(QA)
(3)辅助医疗与金融分析
(4)人工智能模型的知识增强(KGC、K-BERT)
参考链接:
一、有监督、半监督、无监督
有监督:训练数据是带有标签的【图像分类(猫 vs 狗)、垃圾邮件识别(是否为垃圾邮件)】
半监督:训练数据中只有一部分是带标签的,剩下的大量数据是无标签的。用少量标注数据+大量未标注数据进行训练,提高泛化能力。
无监督:训练数据完全没有标签,模型从中自行发现结构或规律。【用户画像分析、市场细分(将客户聚类)、商品推荐系统中的相似商品识别】
二、知识图谱
1、定义
识图谱是一种结构化表示知识的方式。它以“实体-关系-实体”的三元组形式,构建出一个模拟现实世界的语义网络。
用图结构(节点+关系)组织知识,其中:
-
**节点(实体)**表示“知识点”
-
**边(关系)**表示“知识点之间的逻辑联系”
2、分类
类型 | 说明 | 例子 |
---|---|---|
通用知识图谱 | 包含多个领域、面向开放世界的知识 | 百度知识图谱、Wikidata、Freebase |
垂直领域知识图谱 | 聚焦某一专业领域,知识更精细、更准确 | 医疗知识图谱、法律知识图谱、金融知识图谱 |
3、如何构建?
数据来源
-
文本(百科、新闻、论文等)
-
数据库(维基百科、Freebase、医疗数据库等)
-
人工标注或众包
构建步骤
(1)信息抽取:
-
实体识别(NER)
-
关系抽取(Relation Extraction)
-
属性抽取(Attribute Extraction)
(2)知识融合:
-
消歧:识别“Apple(公司)” vs “Apple(水果)”
-
合并:整合多个数据源中重复或近似的信息
(3)知识表示:
-
RDF图结构
-
向量表示(用于下游AI模型)
(4)知识补全(可选):
-
利用图神经网络、嵌入模型自动补全缺失知识
4、应用场景
(1)智能搜索与推荐
搜索引擎中的“知识卡片”、人物关系图谱、基于兴趣的推荐系统,背后都离不开知识图谱的支持。
(2)智能问答系统(QA)
让机器真正“理解”你的问题,并给出语义层面的答案。
例:
用户问:“爱因斯坦是哪国人?”
系统查询知识图谱中“(爱因斯坦, 国籍, 德国)”,直接返回“德国”。
(3)辅助医疗与金融分析
医疗图谱帮助诊断和药物推荐,金融图谱用于反洗钱、关联公司分析、舆情监测等。
(4)人工智能模型的知识增强(KGC、K-BERT)
知识图谱提供“常识”与“世界知识”,补足大模型的短期记忆能力。
参考链接:
知识图谱入门——认识知识图谱 - 知乎
1. 通俗易懂解释知识图谱(Knowledge Graph) - hyc339408769 - 博客园