大语言模型安全与隐私风险综述 PDF 下载_Java知识分享网-免费Java资源下载

失效链接处理

大语言模型安全与隐私风险综述 PDF 下载

转载自：http://www.python222.com/article/1280

相关截图：

主要内容：

1.1 大语言模型相关概念术语

1.1.1 语言模型

P(w1,w2,…,wn |θ) S = w1,w2,…,

wn n θ

P(w1,w2,…,wn |θ) = P(w1|θ)P(w2|w1, θ)…P(wn|w1,

w2,…,wn−1 , θ)

{wk ,wk+1,…,wn } {w0 ,w1,…,wk−1 }

深度学习领域中的术语“语言模型”不等同于通

常意义上的“处理自然语言的模型”，而是对应一种

概率模型，通常用于预测文本序列的下一个单词. 语

言模型可以评估，其中

为个单词组成的文本，即可由参数推测某个句

子出现的概率，实现语言建模. 目前流行的 LLM 通

常以自回归语言建模为训练任务，对整个句子的出

现的概率可以分解为从左到右每个单词出现的概率

的乘，

，训练的过程中，掩盖住训练语句中

，让模型以文本序列预

测的分布.

1.1.2 语言预训练模型与预训练语言模型

为了将文本中将单词映射到高维空间中的向量

表示，以便神经网络模型处理，Mikolov 等人[4] 提出

了 word2vec，系统的介绍了词嵌入（word embedding）方

法，之后 Pennington 等人[5] 提出 GloVe，同样致力于通

过浅层神经网络在通用文本上获取通用的单词表征.

这些预训练模型并不具备预测文本的语言建模能力，

也不属最终任务模型的一部分，有时称为语训练模型.

不同的是，预训练语言模型不仅能预测文本中词汇

概率，还能生成单词关于上下文的向量表征，参数量

也要高几个数量级，作为下游任务一部分参与微调.

1.1.3 大语言模型

相较于传统在较小标注数据集上进行监督训练

的 DNN 模型，GPT 和 BERT 等在无监督文本上作自

监督训练的预训练语言模型参数量达到了 1 亿级别，

高了若干数量级，因此这些模型也被称为大模型或

大语言模型（LLM）. 随着 LLM 的发展，其模型参数

规模持续增长，如 GPT-4 等目前已达万亿参数级别.

虽然 BERT 等早期大模型与之相差甚远，但仍应被称

作大语言模型[6] . 为了有所区别，也有人将百亿参数

级别之上的大模型称为大规模语言模型（large-scale

language model）. 本文中的 PLM 和 LLM 这 2 个术语

可以互换.

1.1.4 基础模型

“基础模型”由斯坦福大学的 HAI 中心与 2021

年最早提出，指代具有大规模参数的机器学习模型，

不针对某一特定任务设计，通常在某些模态下的大

量无标注数据（如文本）上作自监督训练以习得其分

布特征. 可以作为骨干模型（backbone model），助力各

种下游任务的解决，一般 PLM 都可称为基础模型，

还有不少支持图像视频等多模态的基础模型存在.

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦！

Python学习路线图

大语言模型安全与隐私风险综述 PDF 下载