プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

PROCLUSとは何ですか?


PROCLUSは、ProjectedClusteringの略です。これは、通常の次元削減部分空間クラスタリング手法です。つまり、個々の次元の空間から開始するのではなく、高次元の属性領域でクラスターの元の近似を見つけることから始まります。

各ディメンションにはクラスターごとに重みが作成され、更新された重みは次の反復でクラスターを再作成するために使用されます。これにより、いくつかの便利な次元のすべての部分空間で密集した領域が探索され、低次元の投影された次元で多数の重複するクラスターが生成されるのを防ぎます。

PROCLUSは、CLARANSで使用されているものと同様の山登り法フェーズによって、最良のメドイドのグループを発見しますが、予測されたクラスタリングで管理するために一般化されています。マンハッタンセグメント距離と呼ばれる距離測定を採用しています。これは、適切なディメンションのグループでのマンハッタン距離です。

PROCLUSアルゴリズムには、初期化、反復、クラスターの改良という3つのプロセスが含まれています。初期化プロセスでは、各クラスターが選択されたセット内の少なくとも1つのオブジェクトによって定義されるように、互いに遠く離れた元のmedoidのセットを選択する欲張りアルゴリズムが必要です。

生成する必要のある複数のクラスターに比例するデータポイントのランダムサンプルを選択し、欲張りアルゴリズムを使用して、次のプロセスのためにさらに小さな最終サブセットを受け取ることができます。

反復プロセスでは、この縮小されたセット(メドイドの)からランダムにk個のメドイドのセットを選択し、クラスタリングが増加した場合は、ランダムに選択した新しいメドイドを使用して「不良」メドイドを復元します。

各メドイドについて、数学的な期待値と比較して平均距離が小さい次元のグループが選択されます。メドイドに関連する次元の総数はk×lである必要があります。ここで、lは、クラスターサブエリアの平均次元を選択する入力パラメーターです。

改良プロセスでは、検出されたクラスターに応じて各メドイドの新しいディメンションを計算し、ポイントをメドイドに再割り当てし、外れ値を削除します。 PROCLUSは、この方法が高次元クラスターの発見に効果的かつスケーラブルであることを示しています。

多くのオーバーラップしたクラスターを出力するCLIQUEとは異なり、PROCLUSはオーバーラップしていないポイントのパーティションを検出します。検出されたクラスターは、高次元データをよりよく理解し、他のサブシーケンス分析をサポートします。

CLIQUEは、高密度クラスターがそれらの部分空間で継続するように、必然的に最大次元の部分空間を検出します。入力オブジェクトの順序に反応せず、正規のデータ分散のふりをしません。入力のサイズに比例してスケーリングし、データの複数のディメンションが改善されるため、最高のスケーラビリティを備えています。


  1. グラフベースのクラスタリングのアプローチは何ですか?

    物理オブジェクトまたは抽象オブジェクトのセットを同じオブジェクトのクラスに結合するプロセスは、クラスタリングと呼ばれます。クラスターは、同じクラスター内で互いに同じであり、他のクラスター内のオブジェクトとは異なるデータオブジェクトのセットです。データオブジェクトのクラスターは、複数のアプリケーションで1つのグループとしてまとめて考えることができます。クラスター分析は人間にとって不可欠な活動です。 クラスタリングは、外れ値の識別をサポートします。同じ値がクラスターに編成され、クラスターの外にある値は外れ値と呼ばれます。クラスタリング手法では、データタプルをオブジェクトと見なします。それらは、オ

  2. 凝集的クラスタリングアルゴリズムとは何ですか?

    凝集クラスタリングはボトムアップクラスタリング手法であり、クラスターにはサブクラスターがあり、サブクラスターにはサブクラスターなどがあります。まず、各オブジェクトをクラスターに配置し、これらのアトミッククラスターを、すべてのオブジェクトが個々のクラスター内、または明確な終了条件が必要になるまで。このタイプに使用されるいくつかの階層的クラスタリング手法。クラスター間の類似性の説明でのみ区別されます。 たとえば、AGNES(Agglomerative Nesting)と呼ばれるメソッドは、シングルリンク技術を必要とし、次のように動作します。長方形に配置されたオブジェクトのグループがあると考えてく