CNTK 2.2 Python API 解説 (7) – 強化学習の基礎: DQN, Policy Gradient / CNTK v2.3 リリース

CNTK ( Microsoft Cognitive Toolkit ) 2.2 の Python API 解説第7弾です。今回は強化学習がテーマで、OpenAI gym の CartPole を題材にして DQN と Policy Gradient アプローチで CNTK で実装します。
CNTK v2.3 リリース
本題に入る前に、待望の CNTK v2.3 が 11月22日にリリースされました ので、簡単にリリースノートを見ておきましょう。
詳細:https://qiita.com/masao-classcat/items/ec3b9ae1bbd2987c7fc6