当前位置: 首页 > backend >正文

网易大模型算法岗面经80道

  1. code:统计岛屿数量、最大岛屿面积
  2. 自我介绍+项目介绍+论文拷打
  3. bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)
  4. 训练/微调一个LLM的流程?
  5. 实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)
  6. 了解强化学习吗,跟SFT有什么区别?
  7. 反问:业务,对岗位的期望
  8. 项目中指令微调数据集构建细节
  9. RAG是怎么做的,召回结果如何评估,RAG如何改进?
  10. Lora原理,矩阵如何初始化,是否可以初始化为0?
  11. bert如何改进?bert和LLM有什么区别?
  12. transformer计算过程,softmax为什么要进行缩放?
  13. llm的解码参数解释(top-k,top-p,Temperature,Beam Search)
  14. clip的对比学习原理
  15. 对比学习中的Temperature和llm解码器的Temperature是一个东西吗?
  16. 了解多模态模型吗:blip、blip2、GME?
  17. 强化学习概念,ppo和dpo的区别
  18. reward模型的损失函数(rank loss)?
  19. 算法题:钥匙和房间
  20. 介绍一下 RoPE
  21. 介绍一下非线性长度外推
  22. 你觉得 Transformer-XL 与 RoPE 的异同是什么
  23. 说一下 BERT 结构模型的后续改进工作
  24. 手撕 30 分钟,不带 mask 的多头注意力层,为 mha 添加 RoPE
  25. 实习项目,基本llm从数据处理,微调,部署,sql,推理加速全部涉及。
  26. vllm框架介绍一下?了解什么其他框架?
  27. page attention原理
  28. 投机采样是什么,什么情况下用投机采样才能效果好?
  29. lora介绍,为什么可以低秩微调,rank和阿尔法调参经验,跟数据量有什么关系?
  30. 大模型流式输出相比完整输出遇到的问题?遇到badcase怎么办
  31. ppo原理,还有什么推理加速的方法?moe了解吗?moe具体怎么实现
  32. 写一下 attention 公式(代码实现了下)
  33. 训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗
  34. transformer和传统seq2seq模型有什么区别?
  35. 计算attention时为什么要除以d_k,这个d_k的含义是?
  36. attention计算时还有哪些scale处理?
  37. attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?
  38. 解释数值上溢、下溢问题
  39. 讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt
  40. 讲一下SFT,会对哪部分计算loss?为什么?
  41. 讲一下deepspeed
  42. 训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?
  43. 训练模型时用了几张卡,有遇到什么异常中断问题吗?
  44. 联邦学习是啥,如何和llm结合
  45. lora是什么做的秩怎么设置的
  46. 介绍deepspeed zero2(顺便也说说通讯量分析)
  47. sft的loss和预训练的有什么区别
  48. r1复现和蒸馏中的数据长度是什么样的
  49. 在您的项目中,如何设计并实现检索增强生成(RAG)的完整流程?请结合具体案例说明其对生成质量的提升效果。
  50. 您是否了解GRAG(若为已知技术,请解释其与RAG的差异;若为候选人口误,可追问技术细节)?
  51. 您在微调大模型时使用过哪些轻量化框架(如LoRA、QLoRA、P-Tuning)?请结合硬件条件与任务需求说明选型依据。
  52. 列举您熟悉的多模态模型(如CLIP、Flamingo、KOSMOS),并分析其核心架构设计(如跨模态对齐策略)。
  53. 若需全参数微调一个7B参数的模型,请估算显存占用量(需说明优化策略,如梯度检查点),并解释需保存哪些关键参数(如权重、优化器状态)。
  54. 代码实战:实现三数之和算法,要求返回所有不重复的三元组。需关注 时间复杂度优化 与 边界条件处理。
  55. 了解DeepSeek-R1吗?介绍一下
  56. R1的MLA是如何实现KV-Cache的节约?
  57. R1在SFT时冷启动的目的?
  58. 位置编码是什么?解释R0PE
  59. 一个14B的模型,推理和训练要多少显存?
  60. 显存的占用和哪些因素相关?
  61. 大模型灾难性遗忘是什么?如何解决?
  62. BF16、FP16、FP32对比
  63. Adam,AdamW原理
  64. .deepspeed的三个阶段
  65. 在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的影响?
  66. 在指令微调中,如何选择最佳的指令策略,以及其对模型效果的影响?
  67. lama,glm,bloom等现有大模型的数据处理,训练细节,以及不足之处模型架构的优化点,包括但不限于attention,norm,embedding
  68. 解决显存不够的方法有哪些?
  69. 请解释p-tuning的工作原理,并说明它与传统的fine-tuning,方法的不同之处。
  70. 介绍一下Prefix-.tuning的思想和应用场景,以及它如何解决一些NLP任务中的挑战
  71. Lora的原理和存在的问题讲一下?
  72. bf16,fp16半精度训练的优缺点
  73. 如何增加context length模型训练中节约显存的技巧。
  74. .RLHF完整训练过程是什么?RL过程中涉及到几个模型?显存占用关系和SFT有什么区别?
  75. RLHF过程中RM随着训练过程得分越来越高,效果就一定好吗?有没有极端情况?
  76. encoder only,decoder only,encoder-decoder划分的具体标注是什么?典型代表模型有哪些?
  77. vllm推理,混合精度训练,ppo相关的问题
  78. 一道mha实现
  79. 问了gqa,mla,mha
  80. 手撕mla,一道模拟算法。
http://www.xdnf.cn/news/16369.html

相关文章:

  • 【学习笔记】MimicGen: 基于人类演示的可扩展机器人学习数据生成系统
  • 批量重命名带编号工具,附免费地址
  • idea打开后project窗口未显示项目名称的解决方案
  • k8s的权限
  • tlias智能学习辅助系统--Filter(过滤器)
  • Ansible列出常见操作系统的发行版,Ansible中使用facts变量的两种方式
  • CH341 Linux驱动 没有 /dev/ttyCH341USB0
  • Linux文件系统管理——NFS服务端的安装配置与NFS客户端的安装与挂载实操教程
  • 【AI】联网模式
  • Scrapy分布式爬虫数据统计全栈方案:构建企业级监控分析系统
  • GPU运维常见问题处理
  • 【C++】stack和queue的模拟实现
  • Java基础day17-LinkedHashMap类,TreeMap类和集合工具类
  • 基于POD和DMD方法的压气机叶片瞬态流场分析与神经网络预测
  • 基于遗传算法的多无人车协同侦察与安全保护策略优化
  • CUDA杂记--FP16与FP32用途
  • Redis面试精讲 Day 5:Redis内存管理与过期策略
  • 汇编语言中的通用寄存器及其在逆向工程中的应用
  • 计划任务(at和cron命令介绍及操作)
  • MySQL事务原理
  • 应用程序 I/O 接口
  • 【MySQL 数据库】MySQL基本查询(第二节)
  • 系统性学习C语言-第二十三讲-文件操作
  • 谷歌无法安装扩展程序解决方法(也许成功)
  • Kubernetes 与 Docker的爱恨情仇
  • STM32-定时器的基本定时/计数功能实现配置教程(寄存器版)
  • 【工具】好用的浏览器AI助手
  • 用unity开发教学辅助软件---幼儿绘本英语拼读
  • 【深度学习新浪潮】什么是GUI Agent?
  • java面试复习(spring相关系列)