プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

高次元データでの外れ値検出の課題は何ですか?


高次元データでの外れ値検出にはさまざまな課題があります-

外れ値の解釈 −外れ値を特定できるだけでなく、外れ値の解釈もサポートできる必要があります。高次元のデータセットにはいくつかの特徴(または次元)が含まれているため、外れ値である理由についての解釈をサポートせずに外れ値を特定することはあまり役に立ちません。

外れ値の解釈は、外れ値を表す明確な部分空間、またはオブジェクトの「外れ値」に関する評価から明らかになります。このような解釈は、ユーザーが外れ値の考えられる意味と重要性を学習するのに役立ちます。

データの希薄性 −メソッドは、高次元領域のスパース性を管理できる必要があります。次元が向上するにつれて、オブジェクト間の距離はノイズによって大きく支配されるようになります。したがって、高次元領域のデータはまばらです。

データ部分空間 −たとえば、外れ値を示す部分空間に適応し、情報のローカルな動作を取得するなど、外れ値を適切にモデル化する必要があります。一部の部分空間に対して固定距離のしきい値を使用して外れ値を特定することは、次元が増加するにつれて2つのオブジェクト間の距離が単調に増加するため、最善のアイデアではありません。

次元に関するスケーラビリティ −次元が増加するにつれて、複数の部分空間は指数関数的に向上します。いくつかの可能な部分空間を含む検索空間の徹底的な組み合わせ分析は、スケーラブルな方法ではありません。

高次元データの外れ値の検出方法は、次の3つの主な方法に分けることができます-

従来の外れ値検出の拡張 −高次元データの外れ値検出の1つの方法は、従来の外れ値検出方法を改善します。外れ値の従来の近接ベースのモデルが必要です。高次元空間での近接測度の劣化を克服できます。代替測度が必要であるか、部分空間を構築して、そこで外れ値を検出します。

HilOutアルゴリズムは、このメソッドのインスタンスです。 HilOutは距離ベースの外れ値を検出しますが、外れ値の検出では絶対距離ではなく距離のランクが必要です。特に、オブジェクトoごとに、HilOutはnn 1で示されるoのk最近傍を検出します。 (o)、...、nn k (o)、ここでkはソフトウェアに依存するパラメーターです。

オブジェクトoの重みは次のように表されます

$$ \ mathrm {w(o)=\ displaystyle \ sum \ Limits_ {i =1} ^ k dist(o、nn_ {i}(o))} $$

部分空間で外れ値を見つける −高次元データで外れ値を検出するもう1つの方法は、いくつかの部分空間で外れ値を見つけることです。具体的な利点は、オブジェクトがはるかに低次元の部分空間で外れ値であることが判明した場合、その部分空間は、オブジェクトが外れ値である理由と程度を実行するための重要なデータをサポートすることです。これは、次元数が圧倒的に多いため、高次元データを使用するアプリケーションで非常に役立ちます。

高次元の外れ値のモデリング −高次元データの外れ値検出方法の代替方法は、高次元外れ値の新しいモデルを正確に作成しようとします。


  1. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの

  2. 情報セキュリティの課題は何ですか?

    情報セキュリティは、ある位置から別の位置への保存またはブロードキャストの期間中、不正アクセスおよび変動からのデータキャプチャを実行するように設計された一連のプラクティスです。 情報セキュリティは、印刷物、デジタル、およびその他の個人情報、機密情報、および個人情報を許可されていない人物から保護するように設計され、必要とされています。これは通常、情報が陳腐化したり、認識されたり、破壊されたり、変更されたり、混乱したりするのを防ぐために使用されます。 情報セキュリティとは、不正アクセス、使用、改ざん、劣化、破壊、およびさまざまな脅威からのコンピュータ資産の防止とセキュリティです。 物理的および