半教師ありクラスター分析とは何ですか?
半教師ありクラスタリングは、ドメイン知識の使用を作成することにより、ラベルのないデータを分割する方法です。これは通常、インスタンス間のペアワイズ制約として、またはラベル付きインスタンスの追加セットとして表現されます。
教師なしクラスタリングの品質は、たとえば、ペアワイズ制約(つまり、類似または異なるクラスターに属するとラベル付けされたオブジェクトのペア)の形式で、監視の弱い構造を使用して本質的に改善できます。ユーザーのフィードバックやガイダンスの制約に依存するこのようなクラスタリング手順は、半教師ありクラスタリングと呼ばれます。
半教師ありクラスタリングには、次の2つのクラスに分類できるいくつかの方法があります-
制約ベースの半教師ありクラスタリング −ユーザー提供のラベルまたは制約に基づいて使用して、より適切なデータ分割に向けたアルゴリズムをサポートできます。これには、制約に応じて目的関数を変更したり、ラベル付けされたオブジェクトに応じてクラスタリングプロセスを初期化および制約したりすることが含まれます。
距離ベースの半教師ありクラスタリング −監視ありデータのラベルまたは制約を満たすようにトレーニングされた適応距離測度を使用するために使用できます。期待値最大化(EM)を使用してトレーニングされた文字列編集距離や、最短距離アルゴリズムによって変更されたユークリッド距離など、複数の適応距離測度が利用されています。
CLTree(decisionTREEに基づくクラスタリング)として知られる興味深いクラスタリング手法。教師なしクラスタリングを教師なし分類の概念と統合します。これは、制約ベースの半教師ありクラスタリングのインスタンスです。クラスタリングされるポイントのセットを「Y」というラベルの付いた1つのクラスに属するものと見なすことにより、クラスタリングタスクを分類タスクに変更し、複数のクラスラベルが付いた比較的均一に分散された「存在しないポイント」のセットを挿入します。 N。」
次に、データ領域をデータ(密)領域と空(疎)領域に分割する問題を分類問題に変更できます。これらのポイントは、「Y」ポイントのセットと見なすことができます。これは、「o」ポイントによって定義される、均一に分散された「N」ポイントのコレクションの追加を示しています。
したがって、元のクラスタリング問題は分類問題に変更され、「Y」点と「N」点を区別する設計が行われます。決定木誘導法を使用して、2次元空間を分割できます。 「Y」ポイントのみからの2つのクラスターが認識されます。
元のデータに多数の「N」ポイントを挿入するために使用でき、計算に不要なオーバーヘッドが発生する可能性があります。さらに、追加されたいくつかの点が、指数関数的な数の点を必要とする可能性があるため、非常に高次元の空間に実際に均一に分布する可能性は低いです。
-
ドキュメントクラスタリング分析とは何ですか?
ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元
-
マルチリレーショナルクラスタリングとは何ですか?
マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター