外れ値検出とは何ですか?
外れ値は、いくつかのメカニズムによって生成されたかのように、本質的に残りのオブジェクトから分岐するデータオブジェクトです。デモンストレーションの内容については、外れ値ではないデータオブジェクトを「通常の」データまたは期待されるデータとして定義できます。通常、外れ値を「異常な」データとして定義できます。
外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの通常の動作とは異なるいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。
外れ値は、残りのデータと同じ構造で作成されていないことが疑われるため、魅力的です。したがって、外れ値の検出では、識別された外れ値がいくつかのメカニズムによって生成される理由を正当化することが不可欠です。
学習アルゴリズムを使用して、トレーニングレコードの分布に関して正常と異常に発生するデータを区別できるため、1クラス分類は外れ値(または新規性)検出として知られています。
たとえば、新しいコンテンツが近づいているソーシャルメディアのWebサイトを観察することで、新規性の検出により、新しい主題や傾向を迅速に特定できます。新規トピックは元々外れ値として表示される可能性があります。
外れ値の検出と新規性の検出は、モデリングと検出のアプローチにいくつかの類似点があります。ただし、2つの重要な違いは、新規性の検出では、新しい対象が確認されると、それらは一般に一般的な行動のモデルに統合されるため、フォローアップインスタンスは外れ値とは見なされなくなります。
1クラス分類の一般的な統計手法は、外れ値を、トレーニング情報の特定のパーセンテージpからさらに距離dにあるインスタンスとして認識することです。さらに、ガウス分布を含む統計分布をトレーニング情報に適合させることにより、ターゲットクラスの確率密度を計算できます。確率値が低い一部のテストインスタンスは、外れ値として明らかになる可能性があります。
マルチクラス分類器は、フォーカスデータの周囲に境界を合わせ、外部にある例を外れ値と見なすことにより、1クラスの位置に合わせて調整できます。境界は、サポートベクターマシンを含む現在のマルチクラス分類器の内部動作を修正することで作成できます。
これらのアプローチは、ターゲット情報のどれだけが外れ値として定義される可能性が高いかを決定するパラメーターに大きく依存しています。あまりにも慎重に選択すると、フォーカスクラスのデータが誤って削除されます。選択が多すぎると、モデルは過剰適合し、正当なレコードが多すぎて拒否されます。トレーニング時に適切なパラメータ値を選択する必要があるため、通常、テスト中に拒否率を変更することはできません。
-
外れ値検出の課題は何ですか?
外れ値は、別の構造によって生成されたかのように、本質的に残りのオブジェクトから逸脱するデータオブジェクトです。表示を簡単にするために、外れ値ではないデータオブジェクトを「通常の」情報または期待される情報として定義できます。同様に、外れ値を「異常な」データとして定義できます。 外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの一般的な動作からいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。 外れ値の検出にはさまざまな課題があります- 通常の
-
外れ値とは何ですか?
外れ値は、いくつかのメカニズムによって生成されたかのように、本質的に残りのオブジェクトから分岐するデータオブジェクトです。表示を簡単にするために、外れ値ではないデータオブジェクトを「通常の」情報または期待される情報として定義できます。通常、外れ値を「異常な」データとして定義できます。 外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの通常の動作とは異なるいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。 外れ値は、ノイズの多い情報とは異なりま