0%

LLM面经整理

2023我遇到的八股

  1. 多头注意力有什么用?

  2. position embedding的用法?

  3. transformer, bert, gpt区别?

  4. gpt推理时如何做的?

  5. loss.backward()如果多次会出现什么情况呢?

    https://blog.51cto.com/u_15792804/5679035

    https://blog.csdn.net/a845717607/article/details/104598278/

  6. llama2数据做了哪些处理?

  7. 大型模型训练到什么时候算好,如果基座模型生成不好的话,怎么去操作?1

  8. 生成的上下文关联不是很好如何调整?

  9. MHA、MQA、CQA?

  10. KV cache

  11. 如何缓解模型幻觉问题?

  12. langchain组成?

  13. llama(causal language model)、llama2(causal language model)、chatglm(casual with prefix)、chatglm2(causal language model)区别?

  14. 训练LLM需要多少数据?

  15. 混合精度训练?

  16. RMSNorm和layerNorm区别?

  17. layerNorm和batchNorm区别?

  18. deepspeed的zero1、zero2、zero3介绍、数据并行?

  19. LLM上下文扩展方法?

  20. 生成任务中的采样方法?

  21. p-tuning和p-tuning-v2区别?

  22. lora原理?为什么有效?

  23. LLM高效训练方案?

  24. BERT结构?预训练任务?

  25. GLM结构?

  26. 什么是梯度累计?


2024看看别人的八股(做个增量)

  1. BERT训练时使用的学习率 warm-up 策略是怎样的?为什么要这么做

  2. 介绍一下 RAG? RAG 解决了哪些问题?

  3. lora的矩阵怎么初始化?为什么要初始化为全0?

  4. gpt源码past_key_value是干啥的?

  5. encoder-only, decoder-only, encoder-decoder的区别?

  6. 介绍flash attention、flash attention-2?

  7. 什么是大模型外推性?

  8. 过拟合、欠拟合、如何缓解?

  9. 为什么说大模型训练很难?

    https://www.zhihu.com/question/498271491

  10. 介绍一下 rouge,bleu,他们两个之间有什么区别?

  11. RAG(上强度?)

    1. 聊一下RAG项目总体思路?
    2. 使用外挂知识库主要是为了解决什么问题?
    3. 如何评价RAG项目的效果好坏,即指标是什么?
    4. 在做RAG项目过程中遇到哪些问题?怎么解决的?
    5. RAG项目里面有哪一些亮点?目前开源的RAG项目非常多,你的项目和他们有什么区别?
    6. 数据集怎么构建的,什么规模,评估指标是什么,这些指标存在哪些问题?
    7. 模型底座是什么,这些不同底座什么区别,什么规模?
    8. 使用哪一种训练方法,什么sft,这些方法有什么不同,有什么优缺点,原理上解释不不同方法的差别?
    9. 模型推理是怎么做的,有没有cot,tot等等,还是单轮?
    10. 大模型可控性如何实现,怎么保证可控性?
    11. 模型部署的平台,推理效率怎么样,如何提升推理效率?
    12. 项目最后上线了么,上线之后发现什么问题,如何解决?
    13. 给一个总的输入输出样例,每一步包含什么prompt,多轮推理每一步输出什么结果,模拟一下,数据集格式是否要调整成这样,数据形式是什么,怎么拆分成多轮形式?
  12. 大模型加速框架了解多少,知不知道原理 如何进行加速优化?

    1. vLLM
      • vLLm 运行大模型非常快主要使用以下方法实现的
      • 先进的服务吞吐量
      • 通过PageAttention 对attention key & value 内存进行有效的管理
      • 对于输入请求的连续批处理
      • 高度优化的CUDA kernels
    2. OpenLLM
      • OpenLLM 运行大模型非常快主要使用以下方法实现的
      • 促进实际生产过程中的大模型的部署,微调,服务和监测.
    3. DeepSpeed-MII
      • DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的
      • MII(Model Implementations for Inference) 提供加速的文本生成推理通过Blocked KV Caching, Continuous Batching, Dynamic SplitFuse 和高性能的CUDA Kernels
    4. TensorRT-llm
      • DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的
      • 组装优化大语言模型推理解决方案的工具,提供Python API 来定义大模型,并为 NVIDIA GPU 编译高效的 TensorRT 引擎.
  13. 大模型中常见的位置编码?

  14. 分布式训练框架都了解哪些,能不能简单介绍一下?

  15. pre normalization 和 post normalization?

  16. 几种主流大模型的 loss 了解过吗? 有哪些异同?

  17. RLHF的具体工程是什么?包含了哪几个模型?

  18. bert参数量的推演,任何一个transformer结构参数量的推演,和显存占用关系的推演。

  19. bert self-attention中为什么要除根号d?

  20. 除了loss之外,如何在训练过程中监控模型能力?

  21. 如何评测生成,改写等开放性任务?

  22. 什么是大模型的复读机问题?如何缓解?

  23. 如何解决大模型落地过程中的bad case

  24. 如何缓解模型finetune后遗忘通用的能力

  25. 介绍scaling law

    https://zhuanlan.zhihu.com/p/667489780

  26. Bert中为什么要在开头加个[CLS]?

  27. tokenizer(BPE、word-piece、sentence-piece)

  28. RHLF留个坑~

  29. Bert为什么三个embedding可以相加?

    https://www.zhihu.com/question/374835153/answer/1080315948

先写这么多吧,yuanshen启动~

------ 本文结束------