プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニング変換とは何ですか?


データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

データマイニングには、次のようなさまざまな変換があります-

フラグの正常、異常、範囲外、または不可能な事実 −測定されたファクトに特別なフラグを付けることは完全に有益です。いくつかの測定された事実は正しいかもしれませんが、非常に珍しいです。おそらく、これらの事実は、小さなサンプルまたは特定の状況で確立されています。

他の事実がデータに存在する可能性がありますが、不可能または説明できないと見なす必要があります。これらの状況のそれぞれについて、テーブルから異常な値を削除するのではなく、データを分析の内外に制約できるように、ステータスフラグでデータをマークすることをお勧めします。

これらのケースを処理する良い方法は、ファクトレコードの特別なデータステータスディメンションを作成することです。このディメンションを制約として、各ファクトのステータスを定義する必要がある場合があります。

コンテキストからランダム値またはノイズ値を認識し、マスクアウトします −前述の変換の特殊なケースは、レガシーシステムが実際の事実ではなく乱数を提供したことを認識することです。これは、レガシーシステムによって値が配信されることを意図していないが、バッファに残っている数値がデータウェアハウスに渡された場合に発生する可能性があります。このケースが特定されたら、乱数をnull値で復元する必要があります。

null値に均一な処理を適用する −データマイニングツールは、「存在できない」と「存在するが不明」の区別に敏感です。一部のデータマイニングの専門家は、ファクトテーブルレコードの残りの部分が分析に参加できるように、2番目のケースで最も可能性の高い値または中央値を割り当てます。

これは、null値を推定値で上書きすることによって元のデータで実行することも、さまざまな分析オプションを使用してnullデータを処理する方法を知っている高度なデータマイニングツールで処理することもできます。

ステータスが変更されたフラグファクトレコード −有用なデータ変換は、ファクトテーブルレコードに特別なステータスインジケータを追加して、そのアカウント(または顧客または製品または場所)のステータスが変更されたばかりか、変更されようとしていることを示すことです。ステータスインジケータは、スター結合設計のステータスディメンションとして実装されます。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。