View code on GitHub

PPO × Family PyTorch 注解文档

作为 PPO × Family 决策智能入门公开课的“算法-代码”注解文档，力求发掘 PPO 算法的每一个细节，帮助读者快速掌握设计决策人工智能的万能钥匙。

各章节代码解读示例目录

开启决策 AI 探索之旅

策略梯度（PG）算法核心代码 | Policy Gradient core loss function

A2C 算法核心代码 | A2C core loss function

PPO 算法核心代码 | PPO core loss function

解构复杂动作空间

PPO 建模离散动作空间 | PPO in discrete action space

PPO 建模连续动作空间 | PPO in continuous action space

PPO 建模混合动作空间 | PPO in hybrid action space

表征多模态观察空间

特征编码的各种技巧 | Encoding methods for vector obs space

图片动作空间的各类环境包装器 | Env wrappers for image obs space

神经网络梯度计算的代码解析 | Automatic gradient mechanism

解密稀疏奖励空间

Pop-Art normalization trick used in PPO

探索时序建模

PPO + Gated Transformer-XL

统筹多智能体

多智能体协作经典的神经网络架构 | Multi-Agent cooperation network

多智能体独立决策的策略梯度训练流程 | Independent policy gradient training

多智能体协作决策的策略梯度训练流程 | Multi-Agent policy gradient training

Multi-Agent PPO training

挖掘黑科技

GAE technique used in PPO

Recompute adv trick used in PPO

PPO 中使用的梯度范数裁剪 | Gradient norm clip trick used in PPO

Gradient value clip trick used in PPO

Gradient ignore trick used in PPO

Orthogonal initialization of networks used in PPO

Dual clip trick used in PPO

Value clip trick used in PPO

如果读者关于本文档有任何问题和建议，可以在 GitHub 提 issue 或是直接发邮件给我们 (opendilab@pjlab.org.cn) 。