- code:统计岛屿数量、最大岛屿面积
- 自我介绍+项目介绍+论文拷打
- bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)
- 训练/微调一个LLM的流程?
- 实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)
- 了解强化学习吗,跟SFT有什么区别?
- 反问:业务,对岗位的期望
- 项目中指令微调数据集构建细节
- RAG是怎么做的,召回结果如何评估,RAG如何改进?
- Lora原理,矩阵如何初始化,是否可以初始化为0?
- bert如何改进?bert和LLM有什么区别?
- transformer计算过程,softmax为什么要进行缩放?
- llm的解码参数解释(top-k,top-p,Temperature,Beam Search)
- clip的对比学习原理
- 对比学习中的Temperature和llm解码器的Temperature是一个东西吗?
- 了解多模态模型吗:blip、blip2、GME?
- 强化学习概念,ppo和dpo的区别
- reward模型的损失函数(rank loss)?
- 算法题:钥匙和房间
- 介绍一下 RoPE
- 介绍一下非线性长度外推
- 你觉得 Transformer-XL 与 RoPE 的异同是什么
- 说一下 BERT 结构模型的后续改进工作
- 手撕 30 分钟,不带 mask 的多头注意力层,为 mha 添加 RoPE
- 实习项目,基本llm从数据处理,微调,部署,sql,推理加速全部涉及。
- vllm框架介绍一下?了解什么其他框架?
- page attention原理
- 投机采样是什么,什么情况下用投机采样才能效果好?
- lora介绍,为什么可以低秩微调,rank和阿尔法调参经验,跟数据量有什么关系?
- 大模型流式输出相比完整输出遇到的问题?遇到badcase怎么办
- ppo原理,还有什么推理加速的方法?moe了解吗?moe具体怎么实现
- 写一下 attention 公式(代码实现了下)
- 训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗
- transformer和传统seq2seq模型有什么区别?
- 计算attention时为什么要除以d_k,这个d_k的含义是?
- attention计算时还有哪些scale处理?
- attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?
- 解释数值上溢、下溢问题
- 讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt
- 讲一下SFT,会对哪部分计算loss?为什么?
- 讲一下deepspeed
- 训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?
- 训练模型时用了几张卡,有遇到什么异常中断问题吗?
- 联邦学习是啥,如何和llm结合
- lora是什么做的秩怎么设置的
- 介绍deepspeed zero2(顺便也说说通讯量分析)
- sft的loss和预训练的有什么区别
- r1复现和蒸馏中的数据长度是什么样的
- 在您的项目中,如何设计并实现检索增强生成(RAG)的完整流程?请结合具体案例说明其对生成质量的提升效果。
- 您是否了解GRAG(若为已知技术,请解释其与RAG的差异;若为候选人口误,可追问技术细节)?
- 您在微调大模型时使用过哪些轻量化框架(如LoRA、QLoRA、P-Tuning)?请结合硬件条件与任务需求说明选型依据。
- 列举您熟悉的多模态模型(如CLIP、Flamingo、KOSMOS),并分析其核心架构设计(如跨模态对齐策略)。
- 若需全参数微调一个7B参数的模型,请估算显存占用量(需说明优化策略,如梯度检查点),并解释需保存哪些关键参数(如权重、优化器状态)。
- 代码实战:实现三数之和算法,要求返回所有不重复的三元组。需关注 时间复杂度优化 与 边界条件处理。
- 了解DeepSeek-R1吗?介绍一下
- R1的MLA是如何实现KV-Cache的节约?
- R1在SFT时冷启动的目的?
- 位置编码是什么?解释R0PE
- 一个14B的模型,推理和训练要多少显存?
- 显存的占用和哪些因素相关?
- 大模型灾难性遗忘是什么?如何解决?
- BF16、FP16、FP32对比
- Adam,AdamW原理
- .deepspeed的三个阶段
- 在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的影响?
- 在指令微调中,如何选择最佳的指令策略,以及其对模型效果的影响?
- lama,glm,bloom等现有大模型的数据处理,训练细节,以及不足之处模型架构的优化点,包括但不限于attention,norm,embedding
- 解决显存不够的方法有哪些?
- 请解释p-tuning的工作原理,并说明它与传统的fine-tuning,方法的不同之处。
- 介绍一下Prefix-.tuning的思想和应用场景,以及它如何解决一些NLP任务中的挑战
- Lora的原理和存在的问题讲一下?
- bf16,fp16半精度训练的优缺点
- 如何增加context length模型训练中节约显存的技巧。
- .RLHF完整训练过程是什么?RL过程中涉及到几个模型?显存占用关系和SFT有什么区别?
- RLHF过程中RM随着训练过程得分越来越高,效果就一定好吗?有没有极端情况?
- encoder only,decoder only,encoder-decoder划分的具体标注是什么?典型代表模型有哪些?
- vllm推理,混合精度训练,ppo相关的问题
- 一道mha实现
- 问了gqa,mla,mha
- 手撕mla,一道模拟算法。