Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

大模型(LLMs)强化学习——RLHF及其变种面 PDF 下载


分享到:
时间:2025-04-21 09:57来源:http://www.java1234.com 作者:转载  侵权举报
大模型(LLMs)强化学习——RLHF及其变种面
失效链接处理
大模型(LLMs)强化学习——RLHF及其变种面  PDF 下载

 
 
相关截图:
 

主要内容:

一、介绍一下 LLM的经典预训练Pipeline

 

目前基于Transformer decoderLLM,比如ChatGPTLLaMAbaichuan等,通常都会有基于预训练的base
型和在base模型至少使用RLHF微调的Chat模型,Chat模型的训练一般都包括如下三个步骤:预训练,有监督微
调和对齐。
1. 在预训练阶段,模型会从大量无标注文本数据集中学习通用知识;
2. 使用「有监督微调」(SFT)优化模型以更好地遵守特定指令;
3. 使用对齐技术使LLM可以更有用且更安全地响应用户提示。
 
二、预训练(Pre-training)篇
2.1 具体介绍一下 预训练(Pre-training)?
预训练(Pre-training):利用数十亿到数万亿个token的庞大文本语料库 对模型继续 预训练,使 模型 能够 根据
提供的文本来预测「下一个单词」。
 
三、有监督微调(Supervised Tinetuning)篇
3.1 具体介绍一下 有监督微调(Supervised Tinetuning)?
有监督微调(Supervised Tinetuning:虽然 SFT 训练目标和 预训练(Pre-training)类似,也是 需要模型 预测
「下一个单词」,但是需要人工标注的指令数据集,其中模型的输入是一个指令(根据任务的不同,也可能包含
一段输入文本),输出为模型的预期回复内容

 

 



 


------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐