当前位置: 首页 > news >正文

六、深度学习——NLP

一、自然语言概述

  • 自然语言处理研究的主要是通过计算机算法来理解自然语言。对于自然语言来说,处理的数据主要就是人类的语言,该类型的数据不像我们前面接触的结构化数据或图像数据可以很方便的进行数值化

二、词嵌入层

  • 词嵌入层的作用就是将文本转换为向量,词嵌入层首先会根据输入的词的数量构建一个词向量矩阵,例如:我们有5个词,每个词希望转换成3维度的向量,那么构建的矩阵的形状即为5*3,输入的每个词都对应了一个该矩阵中的一个向量

在Pytorch中,使用nn.Embedding词嵌入层来实现输入词的向量化

nn.Embedding(num_embeddings = 10, embedding_dim = 4)

nn.Embedding对象构建时,最主要有两个参数:

  • num_embeddings表示词的数量
  • embedding_dim表示用多少维的向量来表示每个词

将词转换为词向量的步骤:

  1. 先将语料进行分词,构建词与索引的映射,我们可以把这个映射叫做词表,词表中的每个词都对应了一个唯一的索引
  2. 然后使用nn,Embedding构建词嵌入矩阵,词索引对应的向量即为该词对应的数值化后的向量表示
import jieba
import torch
import torch.nn as nn# 分词
text = "北京冬奥的进度条已经过半,不少外国运动员在完成自己的比赛后踏上归途"
words = jieba.lcut(text)
print(words)print("-"*50)
# 去重
un_words = list(set(words))
print(un_words)
print("-"*50)
num = len(un_words)
print(num)# 调用embedding
embeds = nn.Embedding(num_embeddings=num, embedding_dim=3)
print(embeds(torch.tensor(4))) # 获取  '已经'  的词向量print("-"*50)for i,word in enumerate(un_words):print(word)print(embeds(torch.tensor(i)))
http://www.xdnf.cn/news/1113805.html

相关文章:

  • Redis 基础详细介绍(Redis简单介绍,命令行客户端,Redis 命令,Java客户端)
  • 编程与数学 03-001 计算机组成原理 04_非数值数据表示与校验码
  • Rerank模型
  • 【设计模式】职责链模式(责任链模式) 行为型模式,纯与不纯的职责链模式
  • LeetCode|Day9|976. 三角形的最大周长|Python刷题笔记
  • [论文阅读] 软件工程 | 首个德语软件工程情感分析黄金标准数据集:构建与价值解析
  • 开发语言的优劣势对比及主要应用领域分析
  • 【PTA数据结构 | C语言版】简单计算器
  • 深入解析Hadoop RPC:技术细节与推广应用
  • Namespace查看容器状态
  • 基于 SpringBoot 的 REST API 与 RPC 调用的统一封装
  • Maven项目没有Maven工具,IDEA没有识别到该项目是Maven项目怎么办?
  • monorepo 发布库 --- 发布
  • 在 Microsoft Edge 中,你可以使用 IE 兼容模式(Internet Explorer Mode)来运行 IE 内核 的网站。
  • DH(Denavit–Hartenberg)矩阵
  • 范畴论重构三生原理的具体案例?
  • AI(学习笔记第五课) 使用langchain进行AI开发 load documents(web)
  • python基础知识pip配置pip.conf文件
  • 开发语言中关于面向对象和面向过程的笔记
  • python 虚拟环境 Anaconda Miniconda
  • AI 编程工具 Claude Code 实战
  • MSVCP*.dll、vcruntime*.dll缺失或损坏,以及.NET Framework相关问题,解决办法
  • .NET + WPF框架开发聊天、网盘、信息发布、视频播放功能
  • 以太坊应用开发基础:从理论到实战的完整指南
  • [Subtitle Edit] 字幕格式处理 | .Net依赖管理(NuGet)
  • 【机器学习】反向传播如何求梯度(公式推导)
  • 前端面试十二之vue3基础
  • Vue Router 完全指南:从入门到实战,高效管理前端路由
  • 一文读懂现代卷积神经网络—使用块的网络(VGG)
  • 一扇门铃,万向感应——用 eventfd 实现零延迟通信