Geek专栏：强化学习随机策略之高斯似然数原理与代码实现

本帖最后由 lou 于 2020-4-22 11:38 编辑

Geek专栏：强化学习随机策略之高斯似然数原理与代码实现

今天Geek专栏为大家带来

乐聚机器人王松博士的

“强化学习随机策略之高斯似然数原理与代码实现”

一、原理介绍

使用随机策略有两个关键点

1. 从策略当中进行采样，获得动作a(Action)

2. 计算特定动作的似然数 logπθ（a∣s）

什么是多元高斯分布？

在多元高斯分布中，当协方差矩阵 ∑ 只有在对角元素非零，而其余元素为 0时，成为对角高斯分布。
多元高斯分布（MultivariateGaussian Distribution）是一元高斯分布的在向量形式上的推广

，其中向量的均值为

，协方差矩阵为

，概率密度函数表示为

例如二元高斯多元分布可以如图所示

对于一对随机变量X和Y，它们的协方差矩阵写作

对于多个变量的问题，用协方差矩阵来表示各个变量之间的相关性，有

对角多元高斯分布
特殊地，当 N 个随机变量

为各自独立的高斯随机变量时，协方差矩阵为对角阵，即

对角高斯策略 DiagonalGaussian Policies

1. 由于标准差的公式

可知σ始终大于等于 0 ，对标准差取log对数，可以将标准差映射到

，这样更有利于神经网络的训练。

2. 采样：假设已知动作(Action) 的均值

和标准差

，引入服从

分布的噪声

，下一步的动作采样表示为

中⊙表示两个向量之间的内积。

3. 似然数：当均值为

，标准差为

的

维的动作

的似然数表示为

二、代码实现

要求

1. 输入: 样本x，对角高斯分布的均值和标准差

2. 输出：样本x的似然数

import tensorflow as tf
import numpy as np
EPS = 1e-8

复制代码

根据上一节，似然数公式，理解公式后就很容易写出代码

参考链接

https://spinningup.openai.com/en/latest/spinningup/rl_intro.html#stochastic-policies
https://www.tensorflow.org/api_docs/python/tf/math/reduce_sum

		自动登录	找回密码
密码			立即注册

第1期 - 2022-12-20 更新全民话题

推荐阅读

400-8826-226

Geek专栏：强化学习随机策略之高斯似然数原理与代码实现

0 个回复

寻找创客伙伴

合作伙伴

扫一扫加关注