跳转至

AxiomRL

80+ 算法的 PyTorch 强化学习库

Python PyTorch Algorithms License

一个统一、高效、可扩展的强化学习训练框架,涵盖在线学习、离线学习、模仿学习等多种范式。

快速开始 查看算法


快速开始


从零开始搭建环境、安装依赖,五分钟内运行第一个强化学习实验。

开始

核心概念


深入理解 TrainConfig、算法层级、执行后端等框架核心设计思想。

了解更多

算法参考


浏览全部 80+ 强化学习算法,涵盖 6 大类别,附带完整参数说明。

查看算法

配置参考


详细了解 YAML 配置文件格式、TrainConfig 字段定义与高级选项。

配置详情

CLI 工具


使用 axiomrl 命令行工具进行训练、评估、超参搜索等操作。

CLI 文档

Zoo 基准


利用 axiomrl-zoo 运行标准化基准测试,复现论文结果。

基准测试


快速体验

只需几行代码即可启动一个完整的强化学习训练流程:

from rl_training.core import PPO, TrainConfig

config = TrainConfig(
    algo="PPO",
    env_id="CartPole-v1",
    seed=42,
    total_timesteps=100_000,
    output_dir="runs/ppo_cartpole",
)
ppo = PPO(config)
ppo.learn()
axiomrl train --config configs/ppo/cartpole.yaml \
    --output-dir runs/ppo_cartpole \
    --total-timesteps 100000

核心特性

特性 说明
80+ 算法 涵盖在线、离线、模仿学习等 6 大类别
三层 API core(10 个稳定算法)、experimental(全部算法)、contrib(社区贡献)
声明式配置 通过 YAML 文件或 TrainConfig 数据类定义完整的实验参数
CLI 工具 axiomrl 命令行一键启动训练、评估、基准测试
TensorBoard 集成 自动记录训练指标,实时监控实验进展
确定性检查点 支持从检查点精确恢复训练,保证结果可复现
:material-gpu: 多设备支持 无缝切换 CPU / CUDA 训练,支持多环境并行
PyPI 发布 pip install axiomrl 即可安装,MIT 开源协议

技术架构

graph LR
    A["<b>YAML 配置</b><br/>configs/*.yaml"] --> B["<b>TrainConfig</b><br/>数据类解析"]
    B --> C["<b>算法初始化</b><br/>PPO / SAC / DQN ..."]
    C --> D["<b>训练循环</b><br/>环境交互 + 策略更新"]
    D --> E1["<b>检查点</b><br/>模型保存"]
    D --> E2["<b>TensorBoard</b><br/>指标记录"]
    D --> E3["<b>评估结果</b><br/>性能报告"]

    style A fill:#4a90d9,stroke:#2c5f8a,color:#fff
    style B fill:#667eea,stroke:#4a5bc7,color:#fff
    style C fill:#764ba2,stroke:#5a3680,color:#fff
    style D fill:#f093fb,stroke:#c56ad0,color:#fff
    style E1 fill:#4fd1c5,stroke:#38a89d,color:#fff
    style E2 fill:#4fd1c5,stroke:#38a89d,color:#fff
    style E3 fill:#4fd1c5,stroke:#38a89d,color:#fff

稳定核心算法

rl_training.core 提供经过充分验证的 10 个核心算法:

算法 类型 动作空间 说明
A2C 在线策略 离散 / 连续 Advantage Actor-Critic
PPO 在线策略 离散 / 连续 Proximal Policy Optimization
TRPO 在线策略 离散 / 连续 Trust Region Policy Optimization
DQN 离线策略 离散 Deep Q-Network
SAC 离线策略 连续 Soft Actor-Critic
DiscreteSAC 离线策略 离散 Discrete Soft Actor-Critic
TD3 离线策略 连续 Twin Delayed DDPG
BC 模仿学习 离散 / 连续 Behavioral Cloning
CQL 离线 RL 离散 / 连续 Conservative Q-Learning
IQL 离线 RL 离散 / 连续 Implicit Q-Learning