Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

2024大模型训练数据白皮书 PDF 下载


分享到:
时间:2025-12-11 08:31来源:http://www.java1234.com 作者:转载  侵权举报
2024大模型训练数据白皮书
失效链接处理
2024大模型训练数据白皮书 PDF 下载

 
 
相关截图:
 
主要内容:
 

训练数据对大模型发展的重要性

业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生
成式人工智能大模型成功的驱动力。GPT 模型架构从第 1 代到第 4 代均较为相似,而用来训练数据的数据规模和质
量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练,GPT-2 是由经人类过滤后的 40G 数据训练,GPT-3
是由从 45T 原始数据中过滤的 570G 数据训练,而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以
吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高
质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。

 

模型训练所需的数据类型

数据作为大模型训练的基础,它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需
的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。
模型训练所需的数据类型

 

2.1 训练大语言模型的数据
大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型(LLM)为例,其训练过程
分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为



 


------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐