プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

知識発見のプロセスとして見た場合、データマイニングに含まれるステップは何ですか?


KDDは、データベースでのナレッジディスカバリーを表します。これは、データ内の知識を発見する幅広いプロセスを定義し、明確なデータマイニング技術の高レベルのアプリケーションを強調しています。これは、人工知能、機械学習、パターン認識、データベース、統計、専門システムの知識獲得、データの視覚化など、いくつかの分野の研究者が関心を持っている分野です。

KDDプロセスの主な目的は、巨大なデータベースのコンテキストで情報からデータを抽出することです。これは、データマイニングアルゴリズムを利用して、知識と見なされるものを認識することによって行われます。

データベースでのナレッジディスカバリーは、巨大なデータリポジトリのプログラムされた探索的分析およびモデリングとして扱われます。 KDDは、大規模で困難なデータセットから有効で有用で理解しやすい設計を特定するための組織化されたプロセスです。

データマイニングは、レコードを調査し、モデルを開発し、以前は未知のパターンを発見するアルゴリズムの推測など、KDD手順のルートです。このモデルは、情報から知識を抽出し、情報を分析し、情報を予測するために使用されます。

データマイニングは、データ分析と検出アルゴリズムの適用を含むKDDプロセスのステップであり、許容可能な計算効率の制限の下で、データ全体にパターン(またはモデル)の特定の列挙を行います。

KDDプロセスには、データベースの使用と、データベースの必要な選択、前処理、サブサンプリング、および変換が含まれます。データマイニング手法(アルゴリズム)を使用して、そこからパターンを列挙します。データマイニングの製品を計算して、知識と見なされる列挙されたパターンのサブセットを認識します。

知識発見プロセスに含まれるステップは次のとおりです-

  • 選択 −データマイニングプロセスに必要なデータは、さまざまなソースから収集されます。したがって、最初のステップは、データセットを選択するか、検出が実装される変数またはデータサンプルのサブセットに焦点を当てることです。
  • データのクリーニングと前処理 −プロセスで使用されるデータには、欠落または不正確な値が含まれている可能性があるため、基本的な操作には、ノイズの除去、ノイズのモデル化または説明に必要な情報の収集、欠落データフィールドの処理方法の決定、および時系列の計算が含まれます。情報は、KDDプロセスの2番目のステップで完了します。
  • データ変換 −このステップには、タスクの目的に応じてデータを表すための有用な機能を見つけることが含まれます。次元削減または変換アプローチを使用すると、検討中の変数の効率的な数を減らすことができます。または、データの不変表現を見つけることができます。
  • データマイニング −実行されているデータマイニングタスクに基づいています。このステップでは、変換されたデータにアルゴリズムを適用し、分類ルールやツリー、回帰、クラスタリングなど、特定の表現形式または特定の表現のセットで対象のパターンを検索します。
  • マイニングされたパターンの解釈 −このステップには、抽出されたパターンとモデルの視覚化、または抽出されたモデルで提供されたデータの視覚化も含まれます。

  1. 空間データマイニングのプリミティブは何ですか?

    空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを

  2. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。