Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 人工智能AI >

通向AGI之路:大型语言模型(LLM)技术精要 PDF 下载


分享到:
时间:2026-01-20 11:41来源:http://www.java1234.com 作者:转载  侵权举报
通向AGI之路:大型语言模型(LLM)技术精要
失效链接处理
通向AGI之路:大型语言模型(LLM)技术精要 PDF 下载 

 
 
相关截图:
 

主要内容:

求知之路:LLM学到了什么知识
 

[LM从海量自由文本中学习了大量知识,如果把这些知识做粗路分类的话,可以分为语言类知识和
世界知识两大类。

 

语言类知识指的是词法、词性、句法、语义等有助于人类或机器理解自然语言的知识。关于LLM能
否捕获语言知识有较长研究历史,自从Bert出现以来就不断有相关研究,很早就有结论,各种实验
充分证明LLM可以学习各种层次类型的语言学知识,这也是为何使用预训练模型后,各种语言理解
类自然语言任务获得大幅效果提升的最重要原因之一。另外,各种研究也证明了浅层语言知识比如
词法、词性、句法等知识存储在Transformer的低层和中层,而抽象的语言知识比如语义类知识,
广泛分布在Transformer的中层和高层结构中。

 

世界知识指的是在这个世界上发生的一些真实事件(事实型知识,FadualKnowledge),以及一
些常识性知识(Common Sense Knowledge)。比如“拜登是现任美国总统”、“拜登是美国
人“、“乌克兰总统泽连斯基与美国总统拜登举行会晤”,这些都是和拜登相关的事实类知识;而
“人有两只眼睛”、“太阳从东方升起”这些属于常识性知识关于LLM模型能否学习世界知识的
研究也有很多,结仑也比较一致:LLM确实从训练数据中吸收了大量世界知识,而这类知识主要分
布在Transformer的中层和高层,尤其聚集在中层而且,随着Transformer模型层深增加,能够
学习到的知识数量逐渐以指数级增加(可参考:BERTnesia: Investigating the capture and
forgetting of knowledge in BERT)。其实,你把LLM看作是一种以模型参数体现的隐式知识图
谱,如果这么理解,我认为是一点问题也没有的。

 

"When Do You Need Bilons of Words of Pre-training Data?”这篇文章研究了预il练模型学
习到的知识量与训陈数据量的关系,它的结论是:对于Bert类型的语言模型来说,只用1000万到1
亿单词的语料,就能学好句法语义等语言学知识,但是要学习事实类知识,则要更多的训练数据。
这个结论其实也是在意料中的,毕竟语言学知识相对有限且静态,而事实类知识则数量巨大,且处
于不断变化过程中而目前研究证明了陈着增加训练数据量,预训练模型在各种下游任务中效果越
好,这说明了从增量的训练数据中学到的更主要是世界知识。

 

记忆之地:LLM如何存取知识
 

由上可知,LLM确实从数据中学到了很多语言类及世界知识。那么,对于某条具体的知识,LLM把
它存储到了哪里?又是如何提取出来的?这也是一个有意思的问题。

 

显然,知识一定存储在Transfomer的模型参数里从Transfomer的结构看,模型参数由两部分
构成:多头注意力(MHA)部分占了大约参数总体的三分之一,三分之二的参数集中在FFN结构
中,MHA主要用于计算单词或知识间的相关强度,并对全局信息进行集成,更可能是在建立知识
之间的联系,大概率不会存储具体知识点,那么很容易推论出LLM模型的知识主体是存储在
Transfomer的FFN结构里。



 


------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐