ROCKとは?
ROCKは、リンクを使用したRobustClusteringの略です。これは、カテゴリ属性を持つデータのリンク(2つのオブジェクト間の共通のネイバーの数)の概念を分析する階層的クラスタリングアルゴリズムです。カテゴリ情報をクラスタリングする場合、そのような距離データは高品質のクラスターにつながることができないことを示しています。
さらに、ほとんどのクラスタリングアルゴリズムは、クラスタリング時にポイント間の類似性のみを作成します。つまり、各ステップで、ポイントが1つのクラスターに結合されます。この「ローカライズされた」方法では、バグが発生しやすくなります。たとえば、2つの異なるクラスターは、近くにいくつかのポイントまたは外れ値を持つことができます。したがって、ポイント間の類似性に依存してクラスタリングの決定を作成すると、結合する2つのクラスターを生成できます。
ROCKは、ポイントの単一のペアの近傍を処理することにより、クラスタリングに対してよりグローバルな方法を採用しています。 2つの類似したポイントにも同じ近隣がある場合、2つのポイントは類似したクラスターに属している可能性が高いため、組み合わせることができます。
p iという2つのポイントがあります およびpj 、sim(p i の場合はネイバーです 、p j )≥θ。ここで、simは類似度関数であり、θはユーザー指定のしきい値です。 simを距離メトリックとして選択することも、値が0と1の間に収まるように正規化された非メトリックとして選択することもできます。値が大きいほど、ポイントが同じであることを示します。
p i間の接続数 およびpj p i間の共通ネイバーの数として表されます およびpj 。 2つのポイント間のリンクの数が多い場合、それらは同様のクラスターに属している可能性が高くなります。個々のポイントグループ間の関係で隣接するデータポイントを処理することにより、ROCKは、ポイントの類似性のみを対象とする標準のクラスタリング手法よりも強力です。
カテゴリ属性を含むデータのインスタンスは、マーケットバスケット情報です。このようなデータには、トランザクションのデータベースが含まれ、各トランザクションはアイテムのグループです。トランザクションはブール属性で処理され、それぞれがパンやチーズなどの単一のアイテムに対応します。
トランザクションのデータでは、トランザクションにアイテムが含まれている場合、アイテムに対応する属性は正しいです。そうでなければ、それは誤りです。同じ方法で管理できるカテゴリ属性を持つデータセットがいくつかあります。 ROCKのネイバーとリンクの条件は、2つの「ポイント」またはトランザクションT i間で同じです。 およびTj 、はJaccard係数で次のように表されます
$$ \ mathrm {sim(T_ {i}、T_ {j})=\ frac {| T_ {i} \ cap T_ {j} |} {| T_ {i} \ cup T_ {j} |}} $ $
ROCKはまず、類似性のしきい値と共有ネイバーのアプローチを利用して、特定のデータ類似性マトリックスからスパースグラフを生成します。スパースグラフに凝集型階層クラスタリングを実装できます。良さの尺度は、クラスタリングを計算できます。ランダムサンプリングは、高データセットへのスケールアップに使用できます。
ROCKの最悪の場合の時間計算量はO(n 2 + nm m m a + n 2 log n )ここで、m m およびma したがって、ネイバーの最大数と平均数はであり、nはオブジェクトの数です。
-
ドキュメントクラスタリング分析とは何ですか?
ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元
-
マルチリレーショナルクラスタリングとは何ですか?
マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター