Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

        
AI编程,程序员挑战年入30~100万高级指南 - 职业规划
SpringBoot+SpringSecurity+Vue权限系统高级实战课程        

IDEA永久激活

Java微信小程序电商实战课程(SpringBoot+VUe)

     

AI人工智能学习大礼包

     

PyCharm永久激活

66套java实战课程无套路领取

     

Cursor+Claude AI编程 1天快速上手视频教程

     
当前位置: 主页 > Java文档 > 人工智能AI >

大模型(LLMs)强化学习面 PDF 下载


时间:2025-04-20 17:42来源:http://www.java1234.com 作者:转载  侵权举报
大模型(LLMs)强化学习面
失效链接处理
大模型(LLMs)强化学习面 PDF 下载

 
 
相关截图:
 

主要内容:

简单介绍强化学习?
强化学习:(Reinforcement Learning)一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一
种自适应的学习能力
 
简单介绍一下 RLHF
基于人工反馈的强化学习(Reinforcement Learning from Human FeedbackRLHF):构建人类反馈数据集,
训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
 
3. 奖励模型需要和基础模型一致吗?
不同实现方式似乎限制不同。(待实践确认)colossal-aicoati中需要模型有相同的tokenizer,所以选模型只能
从同系列中找。在ppo算法实现方式上据说trlx是最符合论文的。
 
4. RLHF 在实践过程中存在哪些不足?
1. 不足点1:人工产生的偏好数据集成本较高,很难量产;
2. 不足点2:三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢;
3. 不足点3PPO 的训练过程同时存在4个模型(2训练,2推理),对计算资源的要求较高。
 
5. 如何解决 人工产生的偏好数据集成本较高,很难量产问题?
该方法的核心在于通过AI 模型监督其他 AI 模型,即在SFT阶段,从初始模型中采样,然后生成自我批评和修
正,然后根据修正后的反应微调原始模型。 在 RL 阶段,从微调模型中采样,使用一个模型来评估生成的样本,


 

------分隔线----------------------------


锋哥推荐