モデルベースのクラスタリングとは何ですか?
モデルベースのクラスタリングは、データクラスタリングへの統計的アプローチです。観測された(多変量)データは、コンポーネントモデルの有限の組み合わせから作成されたと見なされます。各コンポーネントモデルは確率分布であり、通常はパラメトリック多変量分布です。
たとえば、多変量ガウス混合モデルでは、各コンポーネントは多変量ガウス分布です。特定の観測値の生成を担当するコンポーネントによって、観測値が属するクラスターが決まります。
モデルベースのクラスタリングは、特定のデータといくつかの数学モデルの間の適合を促進する試みであり、データが基本的な確率分布の組み合わせによって作成されるという仮定に基づいています。
モデルベースのクラスタリングには次の種類があります-
統計的アプローチ −期待値の最大化は、一般的な反復改良アルゴリズムです。 k-meansの拡張-
-
重み(確率分布)に従って、各オブジェクトをクラスターに割り当てることができます。
-
新しい平均は、重みの測定値に基づいて計算されます。
基本的な考え方は次のとおりです-
-
パラメータベクトルの初期推定から始めることができます。
-
これを使用して、パラメーターベクトルによって作成された混合密度に対して設計を繰り返し再スコアリングできます。
-
これは、再スコアリングされたパターンがパラメータ推定値を更新するために使用されるために使用されます。
-
スコアによって特定のコンポーネントに配置されている場合は、同じクラスターに属するパターンを作成するために使用できます。
アルゴリズム
-
最初に、k個のクラスターセンターをランダムに割り当てます。
-
次の2つのステップに基づいて、クラスターを繰り返し改良できます-
期待のステップ −各データポイントX iを割り当てることができます C iをクラスター化する 次の確率で
$$ \ mathrm {P(X_ {i} \ in \:C_ {k})\:=\:P(C_k \ arrowvert \:X_i)\:=\:\ frac {P(C_k)P(X_i \ arrowvert \:C_k)} {P(X_i)}} $$
最大化ステップ −モデルパラメータの推定に使用できます
$$ \ mathrm {m_k \:=\:\ frac {1} {N} \ displaystyle \ sum \ Limits_ {i =1} ^ N \ frac {X_ {i} P(X_i \:\ in \:C_k) } {X_ {j} P(X_i)\ in \:C_j}} $$
機械学習アプローチ −機械学習は、膨大なデータ処理のための複雑なアルゴリズムを作成し、そのユーザーに結果をサポートするアプローチです。経験を通じて理解し、予測を作成できる複雑なプログラムを使用しています。
アルゴリズムは、トレーニング情報を頻繁に入力することで、それ自体が改善されます。機械学習の主な目的は、データを学習し、人間が理解して使用できるデータからモデルを構築することです。
これは、分類ツリーの形式で階層的クラスタリングを生成する、インクリメンタル概念学習の有名なアプローチです。各ノードは概念を定義し、その概念の確率的表現を含みます。
制限
-
相関関係が存在する可能性があるため、属性が互いに独立しているという仮定はしばしば強すぎます。
-
大規模なデータベースデータ、偏ったツリー、および高価な確率分布のクラスタリングには適していません。
ニューラルネットワークアプローチ −ニューラルネットワークアプローチは、クラスターのプロトタイプとして機能する例として各クラスターを表します。新しいオブジェクトは、距離測度によるとその例が最も類似しているクラスターに配布されます。
-
STINGグリッドベースのクラスタリングとは何ですか?
グリッドベースのクラスタリング手法は、多重解像度グリッドデータ構造を使用します。オブジェクト領域を有限数のセルに量子化し、グリッド構造を形成します。このグリッド構造に、クラスタリングのすべての操作が実装されます。この方法の利点は、処理時間が短いことです。これは、一般にデータオブジェクトの数に依存せず、量子化された空間の各次元の複数のセルのみに依存します。 グリッドベースのクラスタリングは、多重解像度グリッドデータ構造を使用し、高密度グリッドセルを使用してクラスターを形成します。 STING、wave cluster、CLIQUEなどの興味深い方法がいくつかあります。 スティング −統計情報
-
ドキュメントクラスタリング分析とは何ですか?
ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元