HuggingFace Tokenizers 0.10 : 概要 | Python バインディング概要 (翻訳/解説)

【HF Tokenizers 0.10 : 概要 | Python バインディング概要】
HF Transformers のトークナイザーは HF Tokenizers に依存しています。切り捨て、パディングやモデルが必要な特殊トークンの追加など、前処理の総てを行ないます。Rust 実装のため非常に高速で Python と Node.js のバインディングも持ちます。最新版の 0.10 ベースで幾つかドキュメントを翻訳します。最初は概要と、Python バインディングの概要です。

HuggingFace Transformers は最先端の自然言語処理を可能にする PyTorch と TensorFlow 2.0 のためのエコシステムです。両者はシームレスに統合され、一方で訓練してから推論のために他方でロードすることも可能です。モデルハブにより数千の事前訓練モデルが提供されています。 [詳細]