統計的アプローチとは何ですか?
統計的アプローチは、データに対してモデルが作成されるなどのモデルベースのアプローチであり、オブジェクトはモデルにどの程度適合しているかに関して計算されます。外れ値を検出するためのほとんどの統計的アプローチは、確率分布モデルを開発し、Iikelyオブジェクトがそのモデルよりどの程度下にあるかを考慮することに依存しています。
外れ値は、データの確率分布モデルに関して確率が低いオブジェクトです。確率分布モデルは、ユーザー定義の分布のパラメーターを計算することにより、データから生成されます。
したがって、データがガウス分布であると見なされる場合、基本分布の平均と標準偏差は、データの平均と標準偏差を計算することによって測定できます。分布の下にあるすべてのオブジェクトの確率を計算できます。
統計文献で知られているように、外れ値または不一致な観測値を特定するために考案された、統計的検定の幅広い方法。これらの不一致テストのいくつかは非常に専門的であり、このテキストの能力をさらに高める統計的知識のレベルを考慮しています。
データセットの特定の分布を特定する −ガウス分布、ポアソン分布、二項分布など、少数の一般的な分布によっていくつかのタイプのデータを定義できますが、非標準分布のデータセットは関連して一般的です。もちろん、間違ったモデルを選択すると、オブジェクトが外れ値として誤って認識される可能性があります。
たとえば、データはガウス分布から表示されるようにモデル化できますが、平均から遠く離れた値を受け取る確率が(ガウス分布よりも)高い分布から取得できます。この種の動作を伴う統計分布は、実際には一般的であり、裾が重い分布と呼ばれます。
使用された属性の数 −いくつかの統計的外れ値検出手法は個々の属性に使用されますが、いくつかの手法は多変量データに対して表されています。
分布の混合物 −データは分布の組み合わせとしてモデル化でき、そのようなモデルに基づいて外れ値検出スキームを作成できます。潜在的により動的ですが、そのようなモデルは学習と使用の両方で複雑です。たとえば、以前のオブジェクトを識別する必要がある分布は、外れ値として定義できます。
外れ値検出への統計的アプローチは確固たる基盤を持ち、分布のパラメーターの計算を含む標準的な統計手法に基づいて構築されています。データと使用する必要のあるテストの種類について十分な知識がある場合、これらのテストは効率的です。個々の属性の統計的外れ値のテストには、さまざまな方法があります。多変量データにアクセスできるオプションは少なく、これらのテストは高次元の記録には不十分に実装できます。
-
外れ値とは何ですか?
外れ値は、いくつかのメカニズムによって生成されたかのように、本質的に残りのオブジェクトから分岐するデータオブジェクトです。表示を簡単にするために、外れ値ではないデータオブジェクトを「通常の」情報または期待される情報として定義できます。通常、外れ値を「異常な」データとして定義できます。 外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの通常の動作とは異なるいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。 外れ値は、ノイズの多い情報とは異なりま
-
統計データマイニングの方法論は何ですか?
統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。 データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。 統計データマイニングにはさまざまな方法論があります- 回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロ