HuggingFace Tokenizers 0.10 : トークン化パイプライン (python) (翻訳/解説)

【HF Tokenizers 0.10 : トークン化パイプライン (python)】
HF Transformers のトークナイザーは HF Tokenizers に依存しています。切り捨て、パディングやモデルが必要な特殊トークンの追加など、前処理の総てを行ないます。Rust 実装のため非常に高速で Python と Node.js のバインディングも持ちます。

最新版の 0.10 ベースで幾つかドキュメントを翻訳しています。今回は「トークン化パイプライン (python)」です。encode() を呼び出すとき、入力テキストは次のパイプラインを通過します : 1) 正規化 ; 2) 事前トークン化 ; 3) モデル ; 4) 後処理
これらのステップの各々の間に加えて、幾つかのトークン id をデコードすることを望むときに何が起きるか、そして Tokenizer ライブラリがニーズに応じて各ステップをどのようにカスタマイズするかを見ます。 [詳細]