プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

凝集的クラスタリングアルゴリズムとは何ですか?


凝集クラスタリングはボトムアップクラスタリング手法であり、クラスターにはサブクラスターがあり、サブクラスターにはサブクラスターなどがあります。まず、各オブジェクトをクラスターに配置し、これらのアトミッククラスターを、すべてのオブジェクトが個々のクラスター内、または明確な終了条件が必要になるまで。このタイプに使用されるいくつかの階層的クラスタリング手法。クラスター間の類似性の説明でのみ区別されます。

たとえば、AGNES(Agglomerative Nesting)と呼ばれるメソッドは、シングルリンク技術を必要とし、次のように動作します。長方形に配置されたオブジェクトのグループがあると考えてください。最初は、すべてのオブジェクトが独自のクラスターに配置されています。したがって、クラスターは、クラスターをクラスター内の最も近いオブジェクト間の最小ユークリッド距離と組み合わせるなど、いくつかの原則に従って段階的にマージされます。

クラスタリングのK-means法は、一定数のクラスターから始まり、すべてのデータをその複数のクラスターに正確に割り当てます。別のクラスのアプローチは、凝集によって機能します。これらのアプローチは、すべてのデータポイントが独自のクラスターを形成することから始まり、すべてのポイントが1つの大きなクラスターに集められるまで、徐々にそれらをより高いクラスターに結合します。

最初のプロセスは、類似性マトリックスを作成することです。類似性マトリックスは、クラスター間のペアワイズ距離または類似度のテーブルです。元々、類似性マトリックスには、レコードの単一ペア間のペアワイズ距離が含まれています。

ユークリッド距離、ベクトル間の角度、接続されていないカテゴリフィールドへの接続の比率など、レコード間の類似性のいくつかの尺度があります。

N個のデータポイントに対してN個の元のクラスターがある場合、距離テーブルを作成するにはN2個の測定計算が必要であるように思われます。類似度が真の距離メトリックである場合、一部の真の距離メトリックは、Distance(X、Y)=Distance(Y、X)のメソッドに従うため、必要なのは半分だけです。

数学では、同じ行列は下三角行列です。次のプロセスは、同じ行列内の最小値を見つけることです。これにより、互いに最も同一である2つのクラスターが認識されます。これらの2つのクラスターを新しいクラスターに結合し、親クラスターを記述した2つの行を、マージされたクラスターと残りのクラスター間の距離を定義する新しい行で復元することにより、類似性マトリックスを更新できます。

これで、同じマトリックスにN –1個のクラスターとN–1行があります。マージステップをN– 1回繰り返すことができるため、一部のデータは同じ大きなクラスターに属します。各反復は、結合されたクラスターとそれらの間の距離を認識します。この情報により、使用するクラスタリングの方法を決定できます。


  1. PROCLUSとは何ですか?

    PROCLUSは、ProjectedClusteringの略です。これは、通常の次元削減部分空間クラスタリング手法です。つまり、個々の次元の空間から開始するのではなく、高次元の属性領域でクラスターの元の近似を見つけることから始まります。 各ディメンションにはクラスターごとに重みが作成され、更新された重みは次の反復でクラスターを再作成するために使用されます。これにより、いくつかの便利な次元のすべての部分空間で密集した領域が探索され、低次元の投影された次元で多数の重複するクラスターが生成されるのを防ぎます。 PROCLUSは、CLARANSで使用されているものと同様の山登り法フェーズによって、最

  2. マルチリレーショナルクラスタリングとは何ですか?

    マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター