バーチとは何ですか?
BIRCHは、階層を使用したバランスの取れた反復削減とクラスタリングを表します。階層的クラスタリングと反復パーティショニングを含む他のクラスタリング手法を統合することにより、大量の数値レコードをクラスタリングするように設計されています。
BIRCHは、クラスタリング機能とクラスタリング機能ツリー(CFツリー)の2つの概念を提供します。これらは、クラスターの説明を要約するために使用されます。これらの構造により、クラスタリング手法が容易になり、巨大なデータベースで最高の速度とスケーラビリティを実現し、着信オブジェクトの増分および動的クラスタリングにも効果的になります。
n個のd次元データオブジェクトまたはクラスター内の点が与えられ、重心x 0を表すことができます。 、半径R、およびクラスターの直径Dは次のとおりです-
$$ x_ {0} =\ frac {\ sum_ {i =1} ^ {n} x_ {i}} {n} $$
$$ R =\ sqrt {\ frac {\ sum_ {i =1} ^ {n}(x_ {i} -x_ {0})^ {2}} {n}} $$
$$ D =\ sqrt {\ frac {\ sum_ {i =1} ^ {n} \ sum_ {j =1} ^ {n}(x_ {i} -x_ {j})^ {2}} {n (n-1)}} $$
ここで、Rはメンバー要素から図心までの平均距離、Dはクラスター内の平均ペアワイズ距離です。 RとDの両方が、重心の周りのクラスターのタイトさを逆転させます。クラスタリング機能(CF)は、オブジェクトのクラスターに関するデータを要約した3次元ベクトルです。クラスター内のnd次元のオブジェクトまたはポイントが与えられると、{x i }の場合、クラスターのCFは
として表されます。CF =(n、LL、SS)
ここで、nはクラスター内のポイントの数、LSはnポイントの線形和$ \ sum_ {i =1} ^ {n}(x_ {i})$、SSはデータポイントの二乗和です。 (つまり、$ \ sum_ {i =1} ^ {n} x_ {i} ^ {2} $)
クラスタリング機能は、特定のクラスターの統計の要約です。統計的な観点から、クラスターの0次、1次、および2次モーメントです。クラスタリング機能は補足です。たとえば、クラスタリング機能CF1とCF2を一般的に保持する、2つの互いに素なクラスターC1とC2があるとします。 C1とC2を組み合わせて形成されるクラスターのクラスタリング機能は、単純にCF1+CF2です。
クラスタリング機能は、BIRCHでクラスタリングの決定を行うために必要なすべての測定値を計算するのに十分です。 BIRCHは、クラスタリング機能を使用してオブジェクトのクラスターに関するデータを要約することでストレージを効率的に使用し、それによってすべてのオブジェクトを保存する要件を回避します。
CFツリーは、階層的クラスタリングのクラスタリング機能を保存する高さバランスの取れたツリーです。ツリー内の非リーフノードには、子孫または「子」があります。非リーフノードは、子のCFの合計を格納するため、子に関するクラスタリングデータを要約します。
CFツリーには、分岐係数Bとしきい値Tを含む2つのパラメーターがあります。分岐要素は、非リーフノードごとの子の最大数を定義します。しきい値パラメーターは、ツリーのリーフノードに保存されるサブクラスターの最大直径を定義します。これらの2つのパラメーターは、結果のツリーのサイズを保持します。
-
ドキュメントクラスタリング分析とは何ですか?
ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元
-
マルチリレーショナルクラスタリングとは何ですか?
マルチリレーショナルクラスタリングは、データオブジェクトをクラスターのグループに分割するフェーズであり、複数のリレーションのデータを使用して、それらの類似性に依存します。 CrossClusは、ユーザーガイダンスによる相互関係クラスタリングを表します。これは、物理的な結合を防ぐためにクラスタリングとタプルIDの伝播でユーザーガイダンスを使用する方法を分析するマルチリレーショナルクラスタリングのアルゴリズムです。 マルチリレーショナルクラスタリングの主な課題は、複数の関係にいくつかの属性があり、一般に、それらのごく一部のみが明確なクラスタリングタスクに関連していることです。 学生をクラスター