プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

プライバシーを保護するデータマイニングの方法は何ですか?


プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。

ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。

たとえば、単一のユーザーからユーザーグループにデータを一般化できます。この粒度の低下により、データが失われ、おそらくデータマイニング結果の有用性が失われます。これは、データの損失とプライバシーの間のトレードオフです。

プライバシーを保護するデータマイニング方法は、次の要素に定義できます-

ランダム化の方法 −これらのメソッドは、データにノイズを挿入して、データのいくつかの値をマスクします。追加されるノイズは、個々のデータ値、特に機密性の高いデータ値をフェッチできないように大きくする必要があります。

データマイニングの最終結果が一般的に保存されるように、巧みに追加する必要があります。摂動されたデータから集計分布を変更するように設計されたさまざまな方法があります。

k-匿名性とl-多様性の方法 −これらの方法はどちらも、単一のデータを変更して、具体的に識別できないようにします。 k-匿名性の方法では、データ表現の粒度が適切に低下するため、特定のデータの一部がデータ内の他の最小k個のレコードにマッピングされます。一般化や抑制などの手法が必要です。

k-匿名性の方法は、グループ内に機密性の高い値が均一である場合、変更されたデータに対してそれらの値を推測できるという点で弱くなります。 l-多様性モデルは、匿名化を提供するためにグループ内のさまざまな機密値を適用することにより、この弱点を管理するように設計されました。目的は、攻撃者がデータ属性の組み合わせを使用して単一のレコードを正確に認識することを十分に困難にすることです。

分散型プライバシー保護 −大規模なデータセットは、水平方向(つまり、データセットがデータの複数のサブセットに分割されて複数のサイトに分散される)または垂直方向(つまり、データセットがそれらの属性によって分割されて分散される)のいずれかで分割および分散できます。両方のセット。

単一のサイトがデータセット全体を共有する必要はありませんが、複数のプロトコルを使用して限定的なデータ共有に同意することはできます。このようなメソッドの完全な効果は、一部のデータの集計結果を変更しながら、単一のオブジェクトごとにプライバシーをサポートすることです。

データマイニング結果の有効性のダウングレード −場合によっては、データを利用できない場合でも、データマイニング(相関ルールや分類モデルなど)の出力により、プライバシーが侵害される可能性があります。解決策は、一部の相関ルールを非表示にしたり、一部の分類モデルを多少歪めたりするなど、データまたはマイニング結果を変更することにより、データマイニングの効率を下げることです。


  1. 空間データマイニングのプリミティブは何ですか?

    空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを

  2. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。