プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

K-meansクラスタリングとは何ですか?


K-meansクラスタリングは、最も一般的なパーティショニングアルゴリズムです。 K-meansは、データセット内の各データを、形成された新しいクラスターの1つだけに再割り当てします。レコードまたはデータポイントは、距離または類似性の尺度を使用して最も近いクラスターに割り当てられます。

k-meansアルゴリズムは、入力パラメーターkを作成し、n個のオブジェクトのグループをk個のクラスターに分割して、結果として得られるクラスター内の類似性は大きくなりますが、クラスター間の類似性は低くなります。クラスターの類似性は、クラスター内のオブジェクトの平均値に関して計算されます。これは、クラスターの重心または重心と見なすことができます。

K-meansクラスタリングで使用される次の手順があります-

  • K個の初期クラスター重心c1を選択できます 、c 2 、c 3 …。 。 c k

  • 重心がxに最も近いSクラスター内の各インスタンスxを割り当てることができます。

  • クラスターごとに、そのクラスターに含まれる要素に基づいて重心を再計算します。

  • 収束が完了するまで(b)に進みます。

  • オブジェクト(データポイント)をKクラスターに分離できます。

  • クラスターの中心(重心)=クラスター内のすべてのデータポイントの平均に使用されます。

  • 重心が最も近いクラスターに各ポイントを割り当てることができます(距離関数を使用)。

平均の元の値は任意に許可されます。これらはランダムに割り当てることも、最初のk個の入力項目自体の値を使用することもできます。収束要素は二乗誤差に基づくことができますが、そうではない必要があります。たとえば、アルゴリズムはさまざまなクラスターに割り当てられます。他の終了手法は、固定された反復回数で単にロックされています。収束しなくても買い物を確実にするために、最大反復回数を含めることができます。

アルゴリズム

入力

D = {t1 t2 … tn} // Set of elements
k // Number of desired clusters

出力

K // Set of clusters

K-meansアルゴリズム

   assign initial values for means m1 m2 … . . mk
   repeat
   assign each item ti to the cluster which has the closest mean
calculate the new mean for each cluster
until convergence criteria are met

これは、3つのオブジェクトを3つの元のクラスター中心として任意に選択するために使用されます。クラスター中心は「+」で示されます。各オブジェクトは、便利なクラスターセンターに応じてクラスターに分散されます。

次に、クラスターセンターが更新されます。各クラスターの平均値は、クラスター内の一般的なオブジェクトに基づいて再計算されます。新しいクラスターセンターを利用することにより、隣接するクラスターセンターに応じて、オブジェクトがクラスターに再配布されます。このような再配布構造は、破線の曲線で囲まれた新しいシルエットです。

パーティショニングを改善するためにオブジェクトをクラスターに繰り返し再作成する手順は、反復的な再配置として定義されます。表示されるクラスター内のオブジェクトの再配布はないため、プロセスは削除されます。結果のクラスターは、クラスタリングフェーズによって復元されます。


  1. PROCLUSとは何ですか?

    PROCLUSは、ProjectedClusteringの略です。これは、通常の次元削減部分空間クラスタリング手法です。つまり、個々の次元の空間から開始するのではなく、高次元の属性領域でクラスターの元の近似を見つけることから始まります。 各ディメンションにはクラスターごとに重みが作成され、更新された重みは次の反復でクラスターを再作成するために使用されます。これにより、いくつかの便利な次元のすべての部分空間で密集した領域が探索され、低次元の投影された次元で多数の重複するクラスターが生成されるのを防ぎます。 PROCLUSは、CLARANSで使用されているものと同様の山登り法フェーズによって、最

  2. マルチリレーショナルクラスタリングとは何ですか?

    マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター