当前位置：首页 > news >正文

20250805问答课题-实现TextRank + 问题分类

news 2025/8/5 22:19:13

textRank的工具包实现
其他可能的实现方法，对比结果
查找分类的相关算法

1. 关键词提取TF-IDF + TextRank

1.1. TF-IDF算法

1.2. TextRank算法

1.3. 双算法提取关键词

2. 问题分类

2.1. 预处理

2.2. 获取BERT向量

2.3. 一级标签预测

2.4. 二级标签预测

3. 测试

3.1. 关键词匹配度未发挥作用

3.2. 预测结果对比表

1. 关键词提取TF-IDF + TextRank

1.1. TF-IDF算法

是一种统计方法，评估一个词语在文档中的重要程度。

TF-IDF 值

TFIDF(t,d,D)=TF(t,d)×IDF(t,D)

TF（词频）
- 词语在当前文档中出现的频率，高频词重要
- TF(t,d)=词语 t 在文档 d 中出现的次数 / 文档d的总词数
IDF（逆文档频率）
- 词语在整个语料库中的稀有程度，全局重要性，语料库中出现越少的词权重越高，稀有词区分度高
- IDF(t,D)=log⁡(语料库中文档总数 N / （包含词语 t 的文档数+1)）
- 加1避免分母为零

缺点

忽略语义：无法捕捉词语间的语义关系（如"深度学习"和"神经网络"的关联）、同义词
稀疏性问题：长尾词可能被过度加权
依赖语料库：受限于训练语料的覆盖范围，专业领域新词可能权重异常

1.2. TextRank算法

特点：

图模型：将文本转化为图结构，词语为节点，关系为边
迭代计算：基于PageRank思想，通过投票机制计算节点重要性
上下文感知：考虑词语的局部窗口共现关系

优点：

语义感知：能捕捉词语间的关联性，如"机器学习"和"算法"
无需训练：直接处理单文档，适合动态文本
短语提取：可识别复合词，如"自然语言处理"

1.3. 双算法提取关键词

特殊字符过滤

text = re.sub(r"[^\w\u4e00-\u9fa5？?！!]", "", text)

TF-IDF 提取：

jieba.analyse.extract_tags(text,topK=10,          # 提取前10个关键词withWeight=False, # 不返回权重allowPOS=('n', 'v', 'a', 'nr', 'ns', 'nz')  # 仅保留名词、动词、形容词等
)

原理：基于词频 - 逆文档频率，强调在当前文本中出现频繁但在语料库中不常见的词
词性筛选：保留名词（n）、动词（v）、形容词（a）、人名（nr）、地名（ns）、其他专有名词（nz），过滤虚词、副词等无实际意义的词

TextRank 提取：

jieba.analyse.textrank(text,topK=10,withWeight=False,allowPOS=('n', 'v', 'a', 'nr', 'ns', 'nz')
)

原理：基于图模型，通过词与词的共现关系计算重要性
优势：能捕捉文本内部语义关联

关键词合并与筛选

combined = []seen = set()for kw in tfidf_kws + textrank_kws:if kw not in seen:seen.add(kw)combined.append(kw)# 保留前5-7个关键词return " ".join(combined[:7]) if combined else ""

去重逻辑：通过 seen 集合合并两种算法的结果，优先保留先出现的关键词，去重
长度控制：保留前 5-7 个关键词，用空格拼接为字符串
边界处理：若未提取到关键词，返回空字符串

2. 问题分类

实现问答数据的自动分类（自动标注一级、二级标签）