HOME

GitHub bilibili twitter
View code on GitHub

PPO × Family PyTorch 注解文档

logo

作为 PPO × Family 决策智能入门公开课的“算法-代码”注解文档,力求发掘 PPO 算法的每一个细节,帮助读者快速掌握设计决策人工智能的万能钥匙。

各章节代码解读示例目录

开启决策 AI 探索之旅

  • 策略梯度(PG)算法核心代码 | Policy Gradient core loss function
  • A2C 算法核心代码 | A2C core loss function
  • PPO 算法核心代码 | PPO core loss function

  • 解构复杂动作空间

  • PPO 建模离散动作空间 | PPO in discrete action space
  • PPO 建模连续动作空间 | PPO in continuous action space
  • PPO 建模混合动作空间 | PPO in hybrid action space

  • 表征多模态观察空间

  • 特征编码的各种技巧 | Encoding methods for vector obs space
  • 图片动作空间的各类环境包装器 | Env wrappers for image obs space
  • 神经网络梯度计算的代码解析 | Automatic gradient mechanism

  • 解密稀疏奖励空间

  • Pop-Art normalization trick used in PPO

  • 探索时序建模

  • PPO + LSTM
  • PPO + Gated Transformer-XL

  • 统筹多智能体

  • 多智能体协作经典的神经网络架构 | Multi-Agent cooperation network
  • 多智能体独立决策的策略梯度训练流程 | Independent policy gradient training
  • 多智能体协作决策的策略梯度训练流程 | Multi-Agent policy gradient training
  • Multi-Agent PPO training

  • 挖掘黑科技

  • GAE technique used in PPO
  • Recompute adv trick used in PPO
  • PPO 中使用的梯度范数裁剪 | Gradient norm clip trick used in PPO
  • Gradient value clip trick used in PPO
  • Gradient ignore trick used in PPO
  • Orthogonal initialization of networks used in PPO
  • Dual clip trick used in PPO
  • Value clip trick used in PPO
  • 如果读者关于本文档有任何问题和建议,可以在 GitHub 提 issue 或是直接发邮件给我们 (opendilab@pjlab.org.cn) 。