通向AGI之路：大型语言模型（LLM）技术精要 PDF 下载

通向AGI之路：大型语言模型（LLM）技术精要 PDF 下载

转载自：http://www.python222.com/article/1441

相关截图：

主要内容：

求知之路：LLM学到了什么知识

[LM从海量自由文本中学习了大量知识，如果把这些知识做粗路分类的话，可以分为语言类知识和
世界知识两大类。

语言类知识指的是词法、词性、句法、语义等有助于人类或机器理解自然语言的知识。关于LLM能
否捕获语言知识有较长研究历史，自从Bert出现以来就不断有相关研究，很早就有结论，各种实验
充分证明LLM可以学习各种层次类型的语言学知识，这也是为何使用预训练模型后，各种语言理解
类自然语言任务获得大幅效果提升的最重要原因之一。另外，各种研究也证明了浅层语言知识比如
词法、词性、句法等知识存储在Transformer的低层和中层，而抽象的语言知识比如语义类知识，
广泛分布在Transformer的中层和高层结构中。

世界知识指的是在这个世界上发生的一些真实事件（事实型知识，FadualKnowledge），以及一
些常识性知识(Common Sense Knowledge)。比如“拜登是现任美国总统”、“拜登是美国
人“、“乌克兰总统泽连斯基与美国总统拜登举行会晤”，这些都是和拜登相关的事实类知识；而
“人有两只眼睛”、“太阳从东方升起”这些属于常识性知识关于LLM模型能否学习世界知识的
研究也有很多，结仑也比较一致：LLM确实从训练数据中吸收了大量世界知识，而这类知识主要分
布在Transformer的中层和高层，尤其聚集在中层而且，随着Transformer模型层深增加，能够
学习到的知识数量逐渐以指数级增加(可参考：BERTnesia: Investigating the capture and
forgetting of knowledge in BERT）。其实，你把LLM看作是一种以模型参数体现的隐式知识图
谱，如果这么理解，我认为是一点问题也没有的。

"When Do You Need Bilons of Words of Pre-training Data?”这篇文章研究了预il练模型学
习到的知识量与训陈数据量的关系，它的结论是：对于Bert类型的语言模型来说，只用1000万到1
亿单词的语料，就能学好句法语义等语言学知识，但是要学习事实类知识，则要更多的训练数据。
这个结论其实也是在意料中的，毕竟语言学知识相对有限且静态，而事实类知识则数量巨大，且处
于不断变化过程中而目前研究证明了陈着增加训练数据量，预训练模型在各种下游任务中效果越
好，这说明了从增量的训练数据中学到的更主要是世界知识。

记忆之地：LLM如何存取知识

由上可知，LLM确实从数据中学到了很多语言类及世界知识。那么，对于某条具体的知识，LLM把
它存储到了哪里？又是如何提取出来的？这也是一个有意思的问题。

显然，知识一定存储在Transfomer的模型参数里从Transfomer的结构看，模型参数由两部分
构成：多头注意力（MHA）部分占了大约参数总体的三分之一，三分之二的参数集中在FFN结构
中，MHA主要用于计算单词或知识间的相关强度，并对全局信息进行集成，更可能是在建立知识
之间的联系，大概率不会存储具体知识点，那么很容易推论出LLM模型的知识主体是存储在
Transfomer的FFN结构里。

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦！

Python学习路线图

通向AGI之路：大型语言模型（LLM）技术精要 PDF 下载