当前位置：首页 > ds >正文

NLP语言发展路径分享

ds 2025/7/4 5:24:23

自然语言处理初期发展历程

早期：离散表示

one-hot（只表达“有/无”，语义完全丢失）→ n-gram（局部上下文，但高维稀疏）→ TF-IDF（考虑词频与权重，但不能表达词关联），可见，缺点非常明显，达不到要求

过渡：分布式思想萌芽

LSA等降维尝试，引入“词语义空间”思想，但非神经网络。
突破：神经网络分布式表示

NNLM（深度学习自动学语义嵌入，训练慢）
word2vec（极大提高训练效率与质量，催生“词嵌入”大潮流）

主流趋势

低维、稠密、有语义的词向量成为自然语言理解基础，后续BERT等“上下文相关词向量”技术，是word2vec之后更高阶的语义学习。
理念从“词级one-hot”→“全局加权”→“上下文分布”→“深度学习自学表示”。

小结

one-hot、n-gram、TF-IDF：简单直观，但稀疏、高维、语义弱。
分布式表示、NNLM、word2vec：低维稠密，语义能力强，推动深度学习NLP大发展。
从one-hot到word2vec，是NLP词表示从“人工特征”到“自动语义学习”的质变。

发展过程中，案例展示

一,one-hot

基本的语意:

对文本的表示:

优缺点:

二、TF-IDF

基础公式描述

公式表达:

优缺点分析；

三、N-gram

基础语法表达:

优缺点:

语言模型:

离散表示:

四、分布式

表示方法表示:

优缺点:

共现矩阵的表达方式

表达方式:

表达案例:

优缺点:

公式展现

实现代码

技术实现优缺点:

五、NNLAM

样本案例:

公式:

优缺点:

六、word2vec

案例和算法图

二次方的概率:

PCA实现二维可视化

优缺点

http://www.xdnf.cn/news/14537.html

相关文章：

Good Start/Smilo and Minecraft

大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataease(四)

Oracle 逻辑结构与性能优化（上）

Softhub软件下载站实战开发（三）：平台管理模块实战

第9章：Neo4j集群与高可用性

SpringBoot学习day3-SpringBoot注解开发（新闻项目后段基础）

Java中的CAS与ABA

Leetcode 刷题记录 14 —— 回溯

什么是装饰器？

UE5错误 Linux离线状态下错误 circular dependency detected；includes/requires

chapter06-针对分类的微调

实战指南：部署MinerU多模态文档解析API与Dify深度集成（实现解析PDF/JPG/PNG）

【RAG文档解析】深度剖析 PDF 解析的痛点与方案

springboot集成dubbo

LangChain调用本地modelscope下载的Deepseek大模型

Python打卡第54天

13分钟讲解主流Linux发行版

origin绘制双Y轴柱状图、双Y轴柱状点线图和双Y轴点线图

Node.js验证码：从生成到验证的趣味之旅

条件收敛的级数中项必须趋于 0，正负项抵消，但趋于 0 的速度不需要“足够快”

【学习笔记】深入理解Java虚拟机学习笔记——第9章类加载及执行子系统的案例与实战

深度学习进化史：从神经元的诞生到万亿参数的觉醒

掌握这些 Python 函数，让你的代码更简洁优雅

Git基本使用

npm install报错

Hudi 与 Hive 集成

RV1126+OPENCV对视频流单独进行视频膨胀/腐蚀操作

Spring AI 项目实战（八）：Spring Boot + AI + DeepSeek 打造企业级智能文档分类系统

40套精品大气黑金系列行业PPT模版分享