当前位置: 首页 > ds >正文

大模型笔记1——李宏毅《2025机器学习》第一讲

本篇笔记内容

1、学习本节课需要的前置知识

  • 了解大模型的训练过程:预训练、后训练、强化学习(2024年生成式AI导论前8讲)
  • 了解基础机器学习、深度学习概念(如transformer)(2021年机器学习课程)

2、本节课的大纲

  • 大模型有怎样的行为:
    • 思考reasoning
    • 使用工具(deepreasearch、使用浏览器、询问人类反馈)
  • 运作机制:
    • 人类给定输入,大模型给输出(输入输出可以是文字、语言、图片)
    • 生成式AI的基本原理——文字接龙
      • 根据给定的一串token,决定下一个token
      • 输入给定的token,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。
      • 为什么需要深度学习?不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算所有数据,深度学习多层计算拆开后减少运算量,比较简单。
  • 模型是怎样产生出来的
    • 神经网络包含“架构”和“参数”两部分,其中架构包含如“神经网络有多少层”等,是人为定义好的,一般说工程师调参就是调整架构。(能调整的架构参数,就叫做超参数。参数,则模型是需要通过训练资料学习的)
    • 找出参数过程,就是模型训练,需要大量语料

零、前置准备&课程大纲

一、有什么行为

1)大模型会推理

2)大模型会使用工具

  • deep research
  • 使用浏览器(操作电脑 open ai operator)
  • 询问人类反馈

二、运作机制

1)给定输入,有输出

输入输出都可以是很复杂的东西,比如文字、图片、声音

2)生成式AI的基本原理——文字接龙

给定一串token,决定下一个token

输入给定的token,输出一串概率分布,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。

为什么需要深度学习,不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算,深度学习比较简单。

如果深度学习的层数不够,也可以用前一个深度学习的输出作为下一个深度学习的输入

三、模型是怎样产生出来的

神经网络包含“架构”和“参数”两部分

其中架构包含如“神经网络有多少层”等,是人为定义好的。

一般说工程师调参就是调整架构。

能调整的架构参数,就叫做超参数。参数,则是模型需要通过训练资料学习的。

找出参数过程,就是模型训练

http://www.xdnf.cn/news/17043.html

相关文章:

  • python JSONPath 表达式生成器
  • 一维dp-序列类型-最长有效括号
  • 如何在`<link type=“icon“ href=`的`href`中写SVG并使用path标签? 笔记250802
  • Design Compiler:Milkyway库的创建与使用
  • 中之人模式下的虚拟主持人:动捕设备与面捕技术的协同驱动
  • 人工智能与交通:智能出行的变革与未来
  • retro-go 1.45 编译及显示中文
  • C/C++常用字符串函数
  • 具身智能VLA困于“数据泥潭”,人类活动视频数据是否是“破局之钥”?
  • Noob靶机
  • 大模型 + 垂直场景:搜索 / 推荐 / 营销 / 客服领域开发有哪些新玩法?
  • 决策树算法:三大核心流程解析
  • 详解Python标准库之并发执行
  • 【王阳明代数讲义】基本名词解释
  • 机器学习消融实验:方法论演进、跨领域应用与前沿趋势
  • 海康皓视通 对接测试和比较
  • (吃饭)质数时间
  • AIDL当Parcelable序列化的数据类通信时报“Class not found when unmarshalling“找不到该类时的解决方案
  • JVM 01 运行区域
  • Python Pandas.from_dummies函数解析与实战教程
  • ubuntu双系统设置默认启动系统
  • Windows本地使用dify搭建知识库+ollama+deepseek
  • Java单元测试和设计模式
  • winscp 连openwrt 返回127错误码
  • InfluxDB 与 Node.js 框架:Express 集成方案(一)
  • 【网络原理】HTTP协议(一)
  • Chisel芯片开发入门系列 -- 17. CPU芯片开发和解释7(5级流水线指令原理)
  • 【Flutter3.8x】flutter从入门到实战基础教程(八):公共state的集中管理机制
  • WordPress AI写作插件开发实战:从GPT集成到企业级部署
  • 【Java】不允许直接操作数据表中的数据,开发前台界面来实现对多个数据表的增删改查