マイニング方法のさまざまな側面は何ですか?
マイニング方法には次のようなさまざまな側面があります-
さまざまな新しい種類の知識のマイニング −データマイニングは、データの特性評価と識別から、関係と相関分析、分類、回帰、クラスタリング、外れ値法、シーケンス法、傾向分析と計算分析まで、幅広いデータ分析と知識発見サービスをカバーしています。
これらのサービスは同じデータベースを複数の方法で使用でき、いくつかのデータマイニング技術の開発が必要です。ソフトウェアの多様性のために、新しいマイニングサービスが出現し続けており、強力で急成長している分野であるデータマイニングを開発しています。
たとえば、データネットワークで効果的な知識を発見するために、統合されたクラスタリングとランク付けにより、高品質のクラスターとオブジェクトランクを高ネットワークで見つけることができます。
多次元空間でのマイニング知識 −高データセットの知識を調査する場合、多次元空間の情報を分析できます。いくつかの抽象化レベルで、ディメンション(属性)のセット間の興味深いパターンを検索できます。このようなマイニングは、(探索的)多次元データマイニングと呼ばれます。
場合によっては、データを収集したり、多次元データキューブと見なしたりできます。キューブ領域でのマイニングの知識は、データマイニングの能力と適応性を高めることができます。
データマイニング—学際的な取り組み −データマイニングの能力は、いくつかの分野の新しい技術を統合することで改善できます。たとえば、自然言語のテキストを使用してレコードをマイニングでき、データマイニングのアプローチとデータ検索および自然言語処理の方法を融合する意味があります。
ネットワーク環境での発見力の強化 −一部のデータオブジェクトは、Web、データベースアソシエーション、ファイル、レコードなど、接続された環境または相互接続された環境に存在します。複数のデータオブジェクト間のセマンティック接続を使用して、データマイニングに役立てることができます。オブジェクトの1つのセットで変更された知識を使用して、オブジェクトの「関連付けられた」または意味的に接続されたグループでの知識の発見を増やすことができます。
データの不確実性、ノイズ、または不完全性の処理 −データにノイズ、エラー、例外、またはあいまいさが含まれているか、不完全です。エラーとノイズはデータマイニングフェーズを混乱させ、誤った設計の導出につながる可能性があります。データのクリーニング、データの前処理、外れ値の検出と削除、およびあいまいさの推論は、データマイニングプロセスと統合する必要がある方法の例です。
パターン評価とパターンまたは制約に基づくマイニング −データマイニングプロセスによって生成されたパターンの中には興味深いものではありません。それは興味深いパターンを作成することができ、ユーザーごとに異なる可能性があります。したがって、発見されたパターンの面白さを評価するには、主観的な測定値に依存する手法が必要です。
これらは、ユーザーの信念や期待に応じて、特定のユーザークラスに関するパターンの値を計算します。さらに、興味度の測定値またはユーザー定義の制約を使用して検出プロセスを理解することにより、より興味深いパターンを作成し、検索スペースを減らすことができます。
-
ウェブマイニングの方法論は何ですか?
Webマイニングは、知識の学習または導出を目的とした、Webベースのデータへの機械学習(データマイニング)アプローチのアプリケーションです。 Webマイニングの方法論は、次の3つの異なる要素のいずれかに定義できます- Web使用状況マイニング − Web使用マイニングは、WebページのWebアクセスデータのセットを有効にする一種のWebマイニングです。この使用状況データは、アクセスされたWebページにつながる方向をサポートします。 このデータは、Webサーバーを介して接続ログに自動的に収集されます。 CGIスクリプトは、リファラーログ、ユーザーサブスクリプションデータ、調査ログなどの有用な
-
空間データマイニングのプリミティブは何ですか?
空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを