当前位置：首页 > news >正文

离散文本表示

news 2025/7/3 22:49:40

一、离散文本表示的底层逻辑

二、One-hot 编码

（一）One-hot 编码的精妙机制

（二）One-hot 编码的优势与局限

三、词袋法（Bag of Words）

（一）词袋法的核心思想

（二）词袋法的实际应用与优化

四、TF-IDF

（一）TF-IDF 的计算过程

（二）TF-IDF 的优势与应用场景

一、离散文本表示的底层逻辑

文本本质上是一种符号系统，由词汇、短语、句式等符号按照复杂语法规则构成。计算机却只能理解数值型数据，离散文本表示的意义就在于搭建起符号与数值之间的桥梁。它将文本中的词汇映射到固定维度的数值空间中，形成离散的数值向量，让文本数据得以进入机器学习模型的 “消化系统”。

以最简单的文档集合为例，假设有两句话：“今天是个好日子，适合出门游玩” 和 “好日子让人愉悦”。文本表示的目标就是提取出句子中的关键信息，转化为数字特征，使计算机能够捕捉到两个句子均在描述 “好日子” 这一主题，并且第二个句子进一步强调了 “愉悦” 的情感色彩。

二、One-hot 编码

（一）One-hot 编码的精妙机制

One-hot 编码是最基础的词汇表示方法，它的核心思想是为每个词汇赋予一个独占的维度。以一个小型词汇表 [“今天”, “是”, “个”, “好”, “日子”, “适合”, “出门”, “游玩”, “让人”, “愉悦”] 为例，词汇表大小为 10，那么每个词汇都将用一个 10 维向量表示。其中，对应词汇所在位置为 1，其余位置全为 0。

例如，“今天” 就表示为 [1,0,0,0,0,0,0,0,0,0]，而 “日子” 则是 [0,0,0,0,1,0,0,0,0,0]，以此类推。这种表示方法简单直接，能够清晰地体现词汇的边界，为后续处理提供了清晰的数字化轮廓。

（二）One-hot 编码的优势与局限

One-hot 编码的优势在于其简单性和明确性。它无需复杂的计算，易于实现，且能够快速将文本转化为数字形式。然而，随着文本规模的扩大和词汇量的增加，One-hot 编码的局限性也逐渐凸显。由于它的维度与词汇表大小直接相关，因此在面对大规模文本数据时，容易产生高维度的向量，导致计算资源的浪费和处理效率的下降。

此外，One-hot 编码忽略了词汇之间的语义关联和上下文关系。每个词汇都是一个独立的向量，在数值上毫无关联，这使得模型在处理文本时难以捕捉到词汇之间的内在联系，限制了对文本深层语义的理解。

三、词袋法（Bag of Words）

（一）词袋法的核心思想

词袋法是一种基于文本中词汇出现频率的表示方法。它不再关注词汇在文本中的顺序，而是将文本视为一个 “词汇袋子”，仅仅统计每个词汇出现的次数。以句子 “今天是个好日子，适合出门游玩” 为例，词汇及其次数依次为：“今天”（1）、“是”（1）、“个”（1）、“好”（1）、“日子”（1）、“适合”（1）、“出门”（1）、“游玩”（1）。

在词袋模型中，文本被表示为一个向量，每个元素对应词汇表中的词汇，其值为该词汇在文本中的出现次数。这种方式能够有效地捕捉到文本中词汇的分布特征，为文本分类、情感分析等任务提供有力的支持。

（二）词袋法的实际应用与优化

词袋法在文本分类任务中表现出色。例如，在新闻分类中，不同类别的新闻往往包含特定的高频词汇。通过统计这些词汇的出现次数，模型可以快速判断新闻所属的类别。然而，词袋法同样存在局限性，如对词汇顺序的忽略和对高频词汇的过度依赖。

为了优化词袋法，可以引入平滑技术来处理未出现的词汇，或者采用 TF-IDF（词频 - 逆文档频率）方法对词袋模型进行扩展，以更好地捕捉词汇的重要性。

四、TF-IDF

TF-IDF 是一种在词袋模型基础上改进的表示方法，它通过综合考虑词汇在文本中的频率（TF）和在文档集合中的稀有程度（IDF），对词汇的重要性进行评估。TF（词频）衡量的是词汇在文本中的出现频率，而 IDF（逆文档频率）则表示词汇在整个文档集合中的稀有程度。

（一）TF-IDF 的计算过程

假设我们有一个文档集合，包含文档 [“今天是个好日子，适合出门游玩”, “好日子让人愉悦”]。要计算词汇 “好” 在第一个文档中的 TF-IDF 值：

统计词汇在文档中的频率（TF）：在第一个文档中，“好” 出现了 1 次，文档总词汇数为 8（今天、是、个、好、日子、适合、出门、游玩），因此 TF = 1/8。
计算词汇在文档集合中的逆文档频率（IDF）：在文档集合中，“好” 出现了 2 次（两个文档都包含），文档总数为 2，因此 IDF = log(2/2) = 0（此处采用自然对数）。
计算 TF-IDF 值：TF-IDF = TF × IDF = (1/8) × 0 = 0。

需要注意的是，这里的计算结果在实际应用中可能会根据不同的实现而有所差异。