当前位置: 首页 > backend >正文

分布假设学习笔记

文章目录

  • 分布假设学习笔记
    • 自然语言处理中的分布假设
      • 应用场景
      • 适用范围
    • Word2vec、BERT和GPT
      • Word2vec
      • BERT
      • GPT
    • 假设成立吗

分布假设学习笔记

自然语言处理中的分布假设

分布假设(Distributional Hypothesis)是指:词语在相似上下文中出现,其意义也相似。换句话说,如果两个词在文本中经常出现在相似的环境中,那么它们的语义也很可能相近。

应用场景

  • 词向量学习:如Word2Vec、GloVe等模型,利用分布假设通过上下文信息学习词的向量表示。
  • 词义消歧:通过分析上下文,判断多义词的具体含义。
  • 文本聚类与分类:基于词的分布特征对文本进行聚类或分类。
  • 信息检索与推荐:根据词或短语的分布相似性改进检索和推荐效果。

适用范围

分布假设广泛适用于大多数自然语言处理任务,尤其是在无监督或弱监督学习中。它对低资源语言、专业领域文本等也有一定适用性,但对于需要深层语义理解或常识推理的任务,分布假设的能力有限,需结合其他方法提升效果。

Word2vec、BERT和GPT

Word2vec

Word2vec 通过一个简单的两层神经网络,将词语编码为嵌入向量,确保相似词语的嵌入向量在语义和句法上也相近。训练Word2vec模型有两种方式:

  • CBOW(continuous bag-of-words,连续词袋)模型:Word2vec依据上下文中的词预测当前词。

  • 跳字(skip-gram)模型:与CBOW相反,在跳字模型中,Word2vec根据选定的词来预测上下文词语。尽管跳字模型对于不常见的词更为有效,但CBOW模型通常训练速度更快。

二维向量空间中的Wordsvec嵌入

BERT

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer结构的预训练语言模型。它通过双向编码器同时关注上下文的左右信息,能够更好地理解词语在句子中的含义。BERT在大规模语料上进行预训练,然后通过微调应用于各种下游任务,如文本分类、问答和命名实体识别等,显著提升了自然语言处理的效果。

BERT预训练任务包括预测被随机隐藏的词语

GPT

GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的生成式预训练语言模型。GPT通过在大规模文本数据上进行自回归训练,学习根据已有文本生成下一个词,从而掌握语言的结构和语义。与BERT不同,GPT主要采用单向(从左到右)建模方式,擅长文本生成、对话系统、自动摘要等任务。经过预训练后,GPT可以通过微调适应各种自然语言处理应用。

GPT通过预测下一个词来进行预训练

假设成立吗

分布假设在大多数自然语言处理场景下是成立的,尤其是在大规模语料和统计学习方法中表现良好。它为词向量、文本聚类等任务提供了理论基础。然而,分布假设也有局限性:它主要关注词的表面共现关系,难以捕捉深层语义、常识推理或上下文依赖极强的语言现象。因此,现代NLP模型(如BERT、GPT)在分布假设基础上,结合了更复杂的结构和预训练目标,以提升对语言的理解和生成能力。

尽管存在一些分布假设不适用的反例,但它仍然是一个非常有用的概念,构成了今天语言类Transformer模型的基石。

http://www.xdnf.cn/news/14084.html

相关文章:

  • 比特币---第1关:矿工任务及所需硬件
  • 使用 C++ 和 OpenCV 构建智能停车场视觉管理系统
  • C#最佳实践:推荐使用 nameof 而非硬编码名称
  • 地图布局进阶:插入属性表打开外部文件
  • ShaderToy:旋转风车(atan曲线)
  • 学生端前端用户操作手册
  • React SSR同构渲染方案是什么?
  • PDM网络图上的ES、EF、LS、LF是干嘛的怎么计算下一个节点的数值
  • 进程和线程的相关命令
  • Python 高级主题与性能优化指南
  • 爱普生RX8111CE实时时钟模块在汽车防盗系统中的应用
  • 声波下的眼睛:用Python打造水下目标检测模型实战指南
  • 使用Amazon Elastic Beanstalk部署高考倒计时Flask应用:完整实践指南
  • idea maven打包很慢,怎么提速-多线程
  • 2024开发者生态报告 | AI重构编程、语言新贵崛起与工具效率革命
  • 【免费分享】GWO-BP-AdaBoost预测!灰狼优化、人工神经网络与AdaBoost集成学习算法预测研究
  • 通过示例解释 C# 中强大的 LINQ的集运算
  • python 将CAD的dwg转geoJson
  • 零基础学前端-传统前端开发(第四期-JS基础-运算)
  • 【C语言指南】数组作为函数参数的传递机制
  • 从零到一:构建企业级 Vue.js 3 组件库
  • Arcgispro底图突然加载失败解决办法+属性表中文乱码
  • k8s从入门到放弃之k3s轻量级
  • 第四届智能电网与能源系统国际学术会议(SGES 2025)
  • Hive 序列化与反序列化:数据的 “打包“ 与 “拆箱“ 艺术
  • Angular入门的环境准备步骤工作
  • RabbitMQ缓存详解:由来、发展、核心场景与实战应用
  • HarmonyOS 5中UniApp的调试步骤
  • 宝塔面板如何关闭https强制跳转http/https共存?
  • 【大模型推理学习】flashMLA (二)