PyOD 0.8 : 外れ値検知 101 (翻訳/解説)
翻訳 : (株)クラスキャット セールスインフォメーション
作成日時 : 06/26/2021 (0.8.9)
* 本ページは、PyOD の以下のドキュメントの一部を翻訳した上で適宜、補足説明したものです:
* サンプルコードの動作確認はしておりますが、必要な場合には適宜、追加改変しています。
* ご自由にリンクを張って頂いてかまいませんが、sales-info@classcat.com までご一報いただけると嬉しいです。
スケジュールは弊社 公式 Web サイト でご確認頂けます。
- お住まいの地域に関係なく Web ブラウザからご参加頂けます。事前登録 が必要ですのでご注意ください。
- ウェビナー運用には弊社製品「ClassCat® Webinar」を利用しています。
人工知能研究開発支援 | 人工知能研修サービス | テレワーク & オンライン授業を支援 |
PoC(概念実証)を失敗させないための支援 (本支援はセミナーに参加しアンケートに回答した方を対象としています。) |
◆ お問合せ : 本件に関するお問い合わせ先は下記までお願いいたします。
株式会社クラスキャット セールス・マーケティング本部 セールス・インフォメーション |
E-Mail:sales-info@classcat.com ; WebSite: https://www.classcat.com/ ; Facebook |
PyOD 0.8 : 外れ値検知 101
外れ値検知はサンプルの分布が与えられたとき異常であると考えられるかもしれない観測を識別するタスクとして広く参照されます。分布に属する任意の観測は inlier として参照され、任意の中心から離れた (= outlying) ポイントは外れ値として参照されます。
機械学習のコンテキストでは、このタスクのために 3 つの一般的なアプローチがあります :
1. 教師なし外れ値検知
- (ラベル付けされていない) 訓練データは正常と異常な観測の両者を含みます。
- モデルは fitting プロセスの間に外れ値を識別します。
- このアプローチは、外れ値がデータの低密度領域に存在するポイントとして定義されるとき に取られます。
- 高密度領域に属さない任意の新しい観測は外れ値と考えられます。
2. 半教師あり Novelty (= 新規性) 検知
- 訓練データは正常な動作を記述する観測だけから成ります。
- モデルは訓練データ上で fit されてから新しい観測を評価するために使用されます。
- このアプローチは、外れ値が訓練データの分布とは異なるポイントとして定義されるとき に取られます。
- 閾値内の訓練データとは異なる任意の新しい観測は、それらが高密度領域を形成する場合でさえも、外れ値として考えられます。
3. 教師あり外れ値分類
- 総ての観測のための正解ラベル (inlier vs 外れ値) は既知です。
- モデルは不均衡な訓練データ上で fit されてから新しい観測を分類するために使用されます。
- このアプローチは正解が利用可能であるときに取られてそして外れ値が訓練セットと同じ分布に従うことを仮定しています。
- 任意の新しい観測はモデルを使用して分類されます。
PyOD で見つかるアルゴリズムは最初の 2 つのアプローチにフォーカスしています、これらは訓練データがどのように定義されるか、そしてモデル出力がどのように解釈されるかという点で異なります。更に学習することに関心があれば、関連する書籍、論文、動画とツールボックスのための Anomaly Detection Resources ページを参照してください。
以上