HuggingFace Tokenizers 0.10 : メモリから訓練 (python) (翻訳/解説)
【HF Tokenizers 0.10 : メモリから訓練 (python)】
クイックツアーではテキストファイルを使用してトークナイザーをどのように構築して訓練するかを見ましたが、実際には任意の Python Iterator を利用できます。このセクションではトークナイザーを訓練する幾つかの異なる方法を見ます。
HF Transformers のトークナイザーは HF Tokenizers に依存しています。切り捨て、パディングやモデルが必要な特殊トークンの追加など、前処理の総てを行ないます。Rust 実装のため非常に高速で Python と Node.js のバインディングも持ちます。
最新版の 0.10 ベースで幾つかドキュメントを翻訳しています。 [詳細]
【2021年06月09日(水):ウェビナー】16:00-17:30 [詳細]
人工知能テクノロジーを実ビジネスで活用するには?Vol.105
~ 具体的な導入プロセスと運用の考慮ポイントを解説 ~