プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおけるクラスタリングの要件は何ですか?


データマイニングにおけるクラスタリングには、次のような要件があります-

スケーラビリティ −一部のクラスタリングアルゴリズムは、数百未満のデータオブジェクトを含む小さなデータセットでうまく機能します。巨大なデータベースには、何百万ものオブジェクトを含めることができます。特定の巨大なデータセットのサンプルでクラスタリングすると、部分的な結果が生じる可能性があります。高度にスケーラブルなクラスタリングアルゴリズムが必要です。

さまざまなタイプの属性を処理する機能 −一部のアルゴリズムは、間隔ベースの(数値)情報をクラスター化するように設計されています。ただし、アプリケーションでは、バイナリ、カテゴリ(名義)、順序データ、またはこれらのデータタイプの組み合わせなど、いくつかのタイプのデータをクラスタリングする必要がある場合があります。

任意の形状のクラスターの発見 −一部のクラスタリングアルゴリズムは、ユークリッド距離またはマンハッタン距離の測定値に応じてクラスターを決定します。このような距離測度に依存するアルゴリズムは、同じサイズと密度の球形クラスターを検出する傾向があります。ただし、クラスターは任意の形状にすることができます。任意の形状のクラスターを認識できるアルゴリズムを開発することが不可欠です。

入力パラメータを決定するためのドメイン知識の最小要件 −一部のクラスタリングアルゴリズムでは、ユーザーがクラスター分析で特定のパラメーター(目的のクラスターの数を含む)を入力する必要がありました。クラスタリングの結果は、入力パラメーターに完全に敏感になる可能性があります。特に高次元オブジェクトを含むデータセットの場合、パラメータを決定するのは困難です。これは、タスクユーザーだけでなく、制御が難しいクラスタリングの品質も生み出します。

ノイズの多いデータを処理する機能 −ほとんどの実際のデータベースには、外れ値、欠落した情報、不明な情報、または誤った情報が含まれています。一部のクラスタリングアルゴリズムはそのようなデータに熱心であり、質の悪いクラスターにつながる可能性があります。

増分クラスタリングと入力レコードの順序に対する鈍感 −一部のクラスタリングアルゴリズムでは、新しく挿入された情報(つまり、データベースの更新)を現在のクラスタリング構造に含めることができず、代わりに、新しいクラスタリングを最初から決定する必要があります。

一部のクラスタリングアルゴリズムは、入力レコードの順序に敏感です。アルゴリズムを含むデータオブジェクトのセットが与えられると、入力オブジェクトの表示順序に応じて劇的に異なるクラスタリングを返すことができます。インクリメンタルクラスタリングアルゴリズムと、入力の順序に影響されないアルゴリズムを開発することが不可欠です。

高次元 −データベースまたはデータウェアハウスには、複数のディメンションまたは属性を含めることができます。一部のクラスタリングアルゴリズムは、2〜3次元のみを含む低次元データの管理に優れています。人間の目は、最大3次元のクラスタリングの品質を判断するのに最適です。これは、高次元空間内のデータオブジェクトのクラスターが複雑であることを見つけるために使用されます。特に、そのようなデータが不十分で大きく歪んでいる可能性があることを処理するために使用されます。


  1. ウェブマイニングの方法論は何ですか?

    Webマイニングは、知識の学習または導出を目的とした、Webベースのデータへの機械学習(データマイニング)アプローチのアプリケーションです。 Webマイニングの方法論は、次の3つの異なる要素のいずれかに定義できます- Web使用状況マイニング − Web使用マイニングは、WebページのWebアクセスデータのセットを有効にする一種のWebマイニングです。この使用状況データは、アクセスされたWebページにつながる方向をサポートします。 このデータは、Webサーバーを介して接続ログに自動的に収集されます。 CGIスクリプトは、リファラーログ、ユーザーサブスクリプションデータ、調査ログなどの有用な

  2. 空間データマイニングのプリミティブは何ですか?

    空間データマイニングは、データマイニングを空間モデルに適用することです。空間データマイニングでは、アナリストは地理データまたは空間データを使用して、ビジネスインテリジェンスまたはさまざまな結果を作成します。これには、地理データを関連性のある有益な形式に変換するための特定の方法とリソースが必要でした。 空間データマイニングには、パターンの認識や、研究プロジェクトを推進する質問に関連するオブジェクトの発見など、いくつかの課題があります。アナリストは、GIS / GPSツールまたは同様のシステムを利用して、大規模なデータベース領域またはその他の完全に巨大なデータセットで表示し、関連するデータのみを