プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

グリッドベースのクラスタリングのアルゴリズムは何ですか?


グリッドは、最小の低次元でデータのセットを整理するための効果的な方法です。概念は、各属性の適用可能な値を複数の連続した間隔に分割し、グリッドセルのセットを作成することです。各オブジェクトは、同等の属性間隔にオブジェクトの値が含まれるグリッドセルになります。

レコードを1回通過するだけでセルをグリッド化するオブジェクトを作成でき、セル内のポイント数など、各セルに関するデータも同時に収集できます。

グリッドを使用してクラスタリングを実装する方法は複数ありますが、ほとんどの方法は密度に基づいています。グリッドベースのクラスタリングのアルゴリズムは次のとおりです-

  • グリッドセルのセットを表します。

  • 適切なセルにオブジェクトを作成し、各セルの密度を計算します。

  • 定義されたしきい値rを下回る密度のセルを削除します。

  • 密集したセルの連続したセットからクラスターを形成します。

グリッドセルの定義 −これはプロセスの基本的なステップですが、各属性の可能な値をいくつかの連続した間隔に分割する方法がいくつかあるため、最も明確ではありません。連続属性の場合、1つの方法は、値を同じ幅の間隔に分割することです。したがって、この方法を各属性に使用すると、結果のグリッドセルはすべて同じ体積になり、セルの密度はセル内の複数のポイントとして簡単に定義できます。

グリッドセルの密度 −グリッドセルの密度は、複数のポイントを領域の体積で割ったものとして定義できます。別の言い方をすれば、密度は、その領域の次元に関係なく、領域の量あたりのポイントの数です。

高密度グリッドセルからのクラスターの形成 −隣接する高密度セルのセットからクラスターを形成するのは比較的簡単です。隣接するセルで何を定義できるかを定義する必要があるなど、いくつかの問題があります。クラスタリング手法には、アルゴリズムを少し洗練されたものにすることで対処できるいくつかの欠点があります。たとえば、クラスターの境界に部分的にヌルのセルがある可能性があります。

密度よりも高いデータを使用することにより、基本的なグリッドベースのクラスタリングを改善するために適用できます。場合によっては、レコードに空間属性と非空間属性の両方があります。別の言い方をすれば、時間または空間におけるオブジェクトの領域を定義するさまざまな属性があり、オブジェクトの他の要素を定義するさまざまな属性があります。

例としては、面積と、価格や平方フィート単位の床面積など、複数の特性の両方を備えた住宅があります。空間的(または時間的)自己相関により、特定のセル内のオブジェクトは、他の属性に対して同じ値を持ちます。


  1. Cトークンとは何ですか?

    Cプログラムは命令のコレクションであり、各命令は個々のユニットのコレクションです。 Cプログラムのすべての小さな個々のユニットは一般にトークンと呼ばれ、Cプログラムのすべての命令はトークンのコレクションです。 トークンはCプログラムを構築するために使用され、Cプログラムの基本的な構成要素とも言われています。 Cプログラムでは、トークンには次のものが含まれます- キーワード 識別子 オペレーター 特別な記号 定数 文字列 データ値 Cプログラムでは、これらすべてのキーワード、識別子、演算子、特殊記号、定数、文字列、およびデータ値の集合をトークンと呼びます。 例 以下は、大文字のアル

  2. C#のコメントは何ですか?

    コメントはコードの説明に使用されます。コンパイラはコメントエントリを無視します。 C#プログラムの複数行コメントは、以下に示すように/ *で始まり、文字*/で終わります。 複数行のコメント /* The following is a mult-line comment In C# /* /*...*/はコンパイラによって無視され、プログラムにコメントを追加するために配置されます。 1行のコメント // variable int a = 10; 以下は、単一行コメントと複数行コメントを追加する方法を示すサンプルC#プログラムです- 例 using System; namespace Dem