機械学習ガイド : テキスト分類 (3) データの準備 (前処理) (翻訳/解説)
【TensorFlow 機械学習ガイド: テキスト分類 (3) データの前処理】
映画レビューの分類を扱う TensorFlow チュートリアルの補足として、Google 開発者向けサイトの機械学習ガイド「テキスト分類」をパート別に順次翻訳しています。TensorFlow と tf.keras ベースで解説されています。
これまでに機械学習ガイド「テキスト分類」のイントロダクション、データ収集、データ調査そしてモデルの選択のパートを翻訳してきましたが、今回はデータの準備、いわゆる前処理がテーマです。
n-gram モデルとシークエンス・モデルそれぞれのアプローチのためのデータ前処理について、トークン化・ベクトル化・特徴選択そして正規化に分けて詳述されます。