プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの基本的な概念は何ですか?


データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

データマイニングには次のようなさまざまな概念があります-

分類 −分類は、クラスラベルが匿名であるオブジェクトのクラスを予測するためにモデルを使用できるようにすることを目的として、データクラスまたは概念を表現および区別するモデルを検出する手順です。導出されたモデルは、トレーニングレコードのグループ(つまり、クラスラベルがよく知られているデータオブジェクト)の分析に基づいています。

予測 −予測は分類と同じですが、予測の場合、結果が将来誤って表示される点が異なります。

ビジネスおよび研究における予測機能の例には、-

が含まれます。
  • 3か月後の株式の価値を予測している可能性があります。

  • 制限速度が引き上げられた場合、来年の交通事故死者数の増加率を予測することができます。

  • チームの統計の対応に基づいて、この秋の野球ワールドシリーズの勝者を予測している可能性があります。

  • 創薬における明確な分子が製薬会社にとって費用効果の高い新薬を開始するかどうかを予測することができます。

アソシエーションルールとレコメンデーションシステム −アソシエーションルール、またはアフィニティ分析は、大規模なデータベース内のアイテム間のこのような一般的なアソシエーションパターンを見つけるように設計されています。ルールはいくつかの方法で使用できます。たとえば、食料品店はそのような情報を製品の配置に使用できます。

毎週のプロモーションオファーや製品のバンドルにルールを使用できます。連続入院中の患者の症状に関する病院データベースから導出された相関ルールは、「どの症状の後に他のどの症状が続くか」を見つけるのに役立ち、帰国患者の将来の症状を予測するのに役立ちます。

データ削減 −データマイニングは、膨大な量のデータベースで選択されたデータに使用されます。大量のレコードのデータ分析とマイニングが完了すると、処理に非常に長い時間がかかり、不可能で実行不可能になります。

データ分析の処理時間を短縮できます。データ削減手法を使用して、元のデータの整合性を維持することにより、ボリュームがはるかに小さいデータセットの削減された表現を取得します。データを減らすことで、データマイニングプロセスの効率が向上し、同じ分析結果が得られます。

データ削減は、よりコンパクトに定義することを目的としています。データサイズが小さいほど、成熟した計算コストの高いアルゴリズムを使用する方が簡単です。データの削減は、行数(レコード)または列数(ディメンション)の観点から行うことができます。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。