Stable Baselines 3

W&B を Stable Baseline 3 と統合する方法。

less than a minute

Stable Baselines 3 (SB3) は、PyTorch による強化学習アルゴリズムの信頼性のある実装セットです。W&B の SB3 インテグレーション:

損失やエピソードごとのリターンなどのメトリクスを記録します。
ゲームをプレイするエージェントのビデオをアップロードします。
トレーニング済みモデルを保存します。
モデルのハイパーパラメーターをログします。
モデルの勾配ヒストグラムをログします。

W&B を用いた SB3 トレーニング run の例をレビューしてください。

SB3 実験をログする

from wandb.integration.sb3 import WandbCallback

model.learn(..., callback=WandbCallback())

WandbCallback 引数

引数	使用法
`verbose`	sb3 出力の詳細度
`model_save_path`	モデルが保存されるフォルダーへのパス。デフォルト値は `None` で、モデルはログされません。
`model_save_freq`	モデルを保存する頻度
`gradient_save_freq`	勾配をログする頻度。デフォルト値は 0 で、勾配はログされません。

基本的な例

W&B SB3 インテグレーションは、TensorBoard から出力されたログを使用してメトリクスをログします。

import gym
from stable_baselines3 import PPO
from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common.vec_env import DummyVecEnv, VecVideoRecorder
import wandb
from wandb.integration.sb3 import WandbCallback


config = {
    "policy_type": "MlpPolicy",
    "total_timesteps": 25000,
    "env_name": "CartPole-v1",
}
run = wandb.init(
    project="sb3",
    config=config,
    sync_tensorboard=True,  # sb3 の tensorboard メトリクスを自動アップロード
    monitor_gym=True,  # ゲームをプレイするエージェントのビデオを自動アップロード
    save_code=True,  # オプション
)


def make_env():
    env = gym.make(config["env_name"])
    env = Monitor(env)  # リターンなどの統計を記録
    return env


env = DummyVecEnv([make_env])
env = VecVideoRecorder(
    env,
    f"videos/{run.id}",
    record_video_trigger=lambda x: x % 2000 == 0,
    video_length=200,
)
model = PPO(config["policy_type"], env, verbose=1, tensorboard_log=f"runs/{run.id}")
model.learn(
    total_timesteps=config["total_timesteps"],
    callback=WandbCallback(
        gradient_save_freq=100,
        model_save_path=f"models/{run.id}",
        verbose=2,
    ),
)
run.finish()

フィードバック

このページは役に立ちましたか?

Glad to hear it! If you have more to say, please let us know.

Sorry to hear that. Please tell us how we can improve.

最終更新 September 3, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷