快速体验¶
只需几行代码即可启动一个完整的强化学习训练流程:
核心特性¶
| 特性 | 说明 |
|---|---|
| 80+ 算法 | 涵盖在线、离线、模仿学习等 6 大类别 |
| 三层 API | core(10 个稳定算法)、experimental(全部算法)、contrib(社区贡献) |
| 声明式配置 | 通过 YAML 文件或 TrainConfig 数据类定义完整的实验参数 |
| CLI 工具 | axiomrl 命令行一键启动训练、评估、基准测试 |
| TensorBoard 集成 | 自动记录训练指标,实时监控实验进展 |
| 确定性检查点 | 支持从检查点精确恢复训练,保证结果可复现 |
| :material-gpu: 多设备支持 | 无缝切换 CPU / CUDA 训练,支持多环境并行 |
| PyPI 发布 | pip install axiomrl 即可安装,MIT 开源协议 |
技术架构¶
graph LR
A["<b>YAML 配置</b><br/>configs/*.yaml"] --> B["<b>TrainConfig</b><br/>数据类解析"]
B --> C["<b>算法初始化</b><br/>PPO / SAC / DQN ..."]
C --> D["<b>训练循环</b><br/>环境交互 + 策略更新"]
D --> E1["<b>检查点</b><br/>模型保存"]
D --> E2["<b>TensorBoard</b><br/>指标记录"]
D --> E3["<b>评估结果</b><br/>性能报告"]
style A fill:#4a90d9,stroke:#2c5f8a,color:#fff
style B fill:#667eea,stroke:#4a5bc7,color:#fff
style C fill:#764ba2,stroke:#5a3680,color:#fff
style D fill:#f093fb,stroke:#c56ad0,color:#fff
style E1 fill:#4fd1c5,stroke:#38a89d,color:#fff
style E2 fill:#4fd1c5,stroke:#38a89d,color:#fff
style E3 fill:#4fd1c5,stroke:#38a89d,color:#fff 稳定核心算法¶
rl_training.core 提供经过充分验证的 10 个核心算法:
| 算法 | 类型 | 动作空间 | 说明 |
|---|---|---|---|
| A2C | 在线策略 | 离散 / 连续 | Advantage Actor-Critic |
| PPO | 在线策略 | 离散 / 连续 | Proximal Policy Optimization |
| TRPO | 在线策略 | 离散 / 连续 | Trust Region Policy Optimization |
| DQN | 离线策略 | 离散 | Deep Q-Network |
| SAC | 离线策略 | 连续 | Soft Actor-Critic |
| DiscreteSAC | 离线策略 | 离散 | Discrete Soft Actor-Critic |
| TD3 | 离线策略 | 连续 | Twin Delayed DDPG |
| BC | 模仿学习 | 离散 / 连续 | Behavioral Cloning |
| CQL | 离线 RL | 离散 / 连续 | Conservative Q-Learning |
| IQL | 离线 RL | 离散 / 连续 | Implicit Q-Learning |