大模型（LLMs）微调面 PDF 下载_Java知识分享网-免费Java资源下载

大模型（LLMs）微调面 PDF 下载

转载自：http://www.python222.com/article/1172

相关截图：

主要内容：

1. 如果想要在某个模型基础上做全参数微调，究竟需要多少显

存？

一般 n B的模型，最低需要 16-20 n G的显存。（cpu offload基本不开的情况下）

vicuna-7B为例，官方样例配置为 4*A100 40G，测试了一下确实能占满显存。（global batch size

128，max length 2048）当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。

2. 为什么SFT之后感觉LLM傻了?

• 原版答案：

SFT的重点在于激发大模型的能力，SFT的数据量一般也就是万恶之源alpaca数据集的52k量级，

相比于预训练的数据还是太少了。

如果抱着灌注领域知识而不是激发能力的想法，去做SFT的话，可能确实容易把LLM弄傻。

• 新版答案：

指令微调是为了增强（或解锁）大语言模型的能力。

其真正作用：

指令微调后，大语言模型展现出泛化到未见过任务的卓越能力，即使在多语言场景下也能有不错表

现。

IDEA永久激活