LLM面经整理

2023我遇到的八股

多头注意力有什么用？
position embedding的用法？
transformer, bert, gpt区别?
gpt推理时如何做的?
loss.backward()如果多次会出现什么情况呢?

https://blog.51cto.com/u_15792804/5679035

https://blog.csdn.net/a845717607/article/details/104598278/
llama2数据做了哪些处理?
大型模型训练到什么时候算好，如果基座模型生成不好的话，怎么去操作？1
生成的上下文关联不是很好如何调整?
MHA、MQA、CQA？
KV cache
如何缓解模型幻觉问题？
langchain组成？
llama(causal language model)、llama2(causal language model)、chatglm(casual with prefix)、chatglm2(causal language model)区别？
训练LLM需要多少数据？
混合精度训练？
RMSNorm和layerNorm区别？
layerNorm和batchNorm区别？
deepspeed的zero1、zero2、zero3介绍、数据并行？
LLM上下文扩展方法？
生成任务中的采样方法？
p-tuning和p-tuning-v2区别？
lora原理？为什么有效？
LLM高效训练方案？
BERT结构？预训练任务？
GLM结构？
什么是梯度累计？

2024看看别人的八股(做个增量)

BERT训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做
介绍一下 RAG? RAG 解决了哪些问题?
lora的矩阵怎么初始化？为什么要初始化为全0？
gpt源码past_key_value是干啥的？
encoder-only, decoder-only, encoder-decoder的区别？
介绍flash attention、flash attention-2?
什么是大模型外推性？
过拟合、欠拟合、如何缓解？
为什么说大模型训练很难？

https://www.zhihu.com/question/498271491
介绍一下 rouge，bleu，他们两个之间有什么区别？
RAG(上强度？)
1. 聊一下RAG项目总体思路？
2. 使用外挂知识库主要是为了解决什么问题？
3. 如何评价RAG项目的效果好坏，即指标是什么？
4. 在做RAG项目过程中遇到哪些问题？怎么解决的？
5. RAG项目里面有哪一些亮点？目前开源的RAG项目非常多，你的项目和他们有什么区别？
6. 数据集怎么构建的，什么规模，评估指标是什么，这些指标存在哪些问题？
7. 模型底座是什么，这些不同底座什么区别，什么规模？
8. 使用哪一种训练方法，什么sft，这些方法有什么不同，有什么优缺点，原理上解释不不同方法的差别？
9. 模型推理是怎么做的，有没有cot，tot等等，还是单轮？
10. 大模型可控性如何实现，怎么保证可控性？
11. 模型部署的平台，推理效率怎么样，如何提升推理效率？
12. 项目最后上线了么，上线之后发现什么问题，如何解决？
13. 给一个总的输入输出样例，每一步包含什么prompt，多轮推理每一步输出什么结果，模拟一下，数据集格式是否要调整成这样，数据形式是什么，怎么拆分成多轮形式？
大模型加速框架了解多少，知不知道原理如何进行加速优化？
1. vLLM
  - vLLm 运行大模型非常快主要使用以下方法实现的
  - 先进的服务吞吐量
  - 通过PageAttention 对attention key & value 内存进行有效的管理
  - 对于输入请求的连续批处理
  - 高度优化的CUDA kernels
2. OpenLLM
  - OpenLLM 运行大模型非常快主要使用以下方法实现的
  - 促进实际生产过程中的大模型的部署，微调，服务和监测.
3. DeepSpeed-MII
  - DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的
  - MII(Model Implementations for Inference) 提供加速的文本生成推理通过Blocked KV Caching, Continuous Batching, Dynamic SplitFuse 和高性能的CUDA Kernels
4. TensorRT-llm
  - DeepSpeed-MII 运行大模型非常快主要使用以下方法实现的
  - 组装优化大语言模型推理解决方案的工具，提供Python API 来定义大模型，并为 NVIDIA GPU 编译高效的 TensorRT 引擎.
大模型中常见的位置编码？
分布式训练框架都了解哪些，能不能简单介绍一下?
pre normalization 和 post normalization？
几种主流大模型的 loss 了解过吗? 有哪些异同?
RLHF的具体工程是什么?包含了哪几个模型?
bert参数量的推演，任何一个transformer结构参数量的推演，和显存占用关系的推演。
bert self-attention中为什么要除根号d?
除了loss之外，如何在训练过程中监控模型能力？
如何评测生成，改写等开放性任务?
什么是大模型的复读机问题？如何缓解？
如何解决大模型落地过程中的bad case
如何缓解模型finetune后遗忘通用的能力
介绍scaling law

https://zhuanlan.zhihu.com/p/667489780
Bert中为什么要在开头加个[CLS]?
tokenizer(BPE、word-piece、sentence-piece)
RHLF留个坑~
Bert为什么三个embedding可以相加？

https://www.zhihu.com/question/374835153/answer/1080315948

先写这么多吧，yuanshen启动~