CLIP (対照的言語-画像事前訓練) : 概要 (翻訳/解説)

【CLIP (対照的言語-画像事前訓練) : 概要】
CLIP (対照的言語-画像事前訓練) は様々な (画像, テキスト) ペアで訓練されたニューラルネットワークです。オリジナル実装は PyTorch で OpenAI により公開されました。

GPT-2 と 3 のゼロショット機能と同様にタスクに対して直接最適化されることなく、画像が与えられたとき最も関連性の高いテキストのスニペットを予測するように自然言語で指示できます。[More]