基于lora的llama2二次预训练 PDF 下载_Java知识分享网-免费Java资源下载

基于lora的llama2二次预训练 PDF 下载

转载自：http://www.python222.com/article/1202

相关截图：

主要内容：

一、为什么需要对 llama2 做基于lora的二次预训练?

加入中文训练语料进行llama2的二次预训练，这样模型就可以增加支持中文输出的能力。

二、基于lora的llama2二次预训练的目标是什么？

在保持预训练模型权重不变的情况下，通过添加额外的网络层并仅训练这些新增的网络层参数，实现大模型的高

效微调（peft）。

三、基于lora的llama2二次预训练的思想是什么？

思想：基于对模型本征维度（intrinsic dimension）的理解。

“本征维度”是指模型中真正有用的、能够影响模型输出的参数数量。

Aghajanyan研究发现，预训练模型的内在维度实际上非常小，即只有一小部分参数对模型输出有显著影响。就是

存在一个极低维度的参数，微调它和在全参数空间中微调能起到相同的效果

LORA假设模型在任务适配过程中权重的改变量是低秩（low rank）

W=W0+ΔW，ΔW=BA

参数更新范围：只训练新增的网络层参数

IDEA永久激活