PyTorch 1.1 Tutorials : 強化学習 : 強化学習 (DQN) チュートリアル (翻訳/解説)

【PyTorch 1.1 Tutorials : 強化学習 (DQN) チュートリアル】
PyTorch 1.1 リリースのチュートリアルの再翻訳を進めています。
今回は「強化学習」カテゴリーから DQN (深層 Q-ネットワーク) のチュートリアルです。題材は標準的な OpenAI Gym のカートポールですが、スクリーンを読み取って入力とする CNN を利用したアプローチで実装してみます。最初に再生メモリと DQN アルゴリズムについて簡単に説明された後、Q ネットワークを実装して訓練します。Epsilon-Greedy ポリシーを使用しています。
PyTorch は TensorFlow とともに多く利用されている深層学習フレームワークです。5 月に PyTorch 1.1 がリリースされ 1.0 のドキュメントから追加や修正が入っていますので、順次再翻訳しています。