HuggingFace TRL 0.5 : Transformer 強化学習 (翻訳/解説)

2023-08-13 2023-08-13

SasakiNoriyuki

【transformer 言語モデル：HuggingFace TRL 0.5】Transformer 強化学習

HuggingFace TRL は、教師あり微調整 (SFT) ステップ, 報酬モデリング (RM) ステップから近接ポリシー最適化 (PPO) ステップまで、強化学習を使用して transformer 言語モデルを訓練するツールのセットを提供するフルスタックのライブラリです。

このライブラリは Hugging Face による transformers ライブラリの上に構築されています。
[More]

カテゴリー: GenerativeAI、HuggingFace、PyTorch、ブログ

タグ: DeepLearning GenarativeAI HuggingFace MachineLearning PyTorch SentenceTransformers StableDiffusion 人工知能機械学習深層学習自然言語処理

OpenAI Cookbook examples : API 使用方法 : tiktoken でトークンを数える方法 (翻訳/解説)

OpenAI Cookbook examples : GPT : 補完をストリームする方法 (翻訳/解説)

PAGE TOP