强化学习在自然语言处理下的应用篇 PDF 下载_Java知识分享网-免费Java资源下载

强化学习在自然语言处理下的应用篇 PDF 下载

转载自：http://www.python222.com/article/1207

相关截图：

主要内容：

一、强化学习基础面

1.1 介绍一下强化学习？

强化学习（Reinforcement Learning）是一种时序决策学习框架，通过智能体和环境交互

1.2 介绍一下强化学习的状态（States）和观测（Observations）？

• 状态（States）：对于世界状态的完整描述

• 观测（Observations）：对于一个状态的部分描述，可能会缺失一些信息。当O=S时，称O为完美信息/fully

observed；O<S时，称O为非完美信息/partially observed。

1.3 强化学习有哪些动作空间（Action Spaces），他们之间的区别是什么？

• 离散动作空间：当智能体只能采取有限的动作，如下棋/文本生成

• 连续动作空间：当智能体的动作是实数向量，如机械臂转动角度

其区别会影响policy网络的实现方式。

1.4 强化学习有哪些 Policy策略？

• 确定性策略Deterministic Policy： at = u(st)，连续动作空间

• 随机性策略Stochastic Policy： at ~ π(·|st) ，离散动作空间

最新Java全栈就业实战课程(免费)

Java1234官方群25：
Java1234官方群25：	838462530