中国人工智能系列白皮书——大模型技术（2023版）PDF 下载

中国人工智能系列白皮书——大模型技术（2023版）PDF 下载

转载自：http://www.python222.com/article/1255

相关截图：

主要内容：

2.1 Transformer 架构

Transformer 架构[13]是目前语言大模型采用的主流架构[5]，其基

于自注意力机制(Self-attention Mechanism)模型。其主要思想是通过自

注意力机制获取输入序列的全局信息，并将这些信息通过网络层进行

传递。标准的 Transformer 如图 2-1 所示，是一个编码器-解码器架构，

其编码器和解码器均由一个编码层和若干相同的 Transformer 模块层

堆叠组成，编码器的 Transformer 模块层包括多头注意力层和全连接

前馈网络层，这两部分通过残差连接和层归一化操作连接起来。与编

码器模块相比，解码器由于需要考虑解码器输出作为背景信息进行生

成，其中每个 Transformer 层多了一个交叉注意力层。相比于传统循

环神经网络（Recurrent Neural Network, RNN）和长短时记忆神经网

络（Long Short-Term Memory Network, LSTM），Transformer 架构的

优势在于它的并行计算能力，即不需要按照时间步顺序地进行计算。

Transformer 架构包含编码层与 Transformer 模块两个核心组件，

编码层，主要是将输入词序列映射到连续值向量空间进行编码，

每个词编码由词嵌入和位置编码构成，由二者加和得到：

1）词嵌入，在 Transformer 架构中，词嵌入是输入数据的第一步

处理过程，它将词映射到高维空间中的向量，可以捕获词汇的语义信

息，如词义和语法关系。每个词都被转化为一个固定长度的向量，然

后被送入模型进行处理。

最新Java全栈就业实战课程(免费)

Java1234官方群25：
Java1234官方群25：	838462530