大規模なデータセットでのk-medoidsアルゴリズムはどの程度効率的ですか?
PAMのような古典的なk-medoidsパーティショニングアルゴリズムは、小さなデータセットでは効率的に機能しますが、巨大なデータセットではうまくスケーリングしません。より高いデータセットを処理でき、CLARA(Clustering Large Applications)として知られるサンプリングベースの方法を使用できます。
CLARAの背後にあるアプローチは次のとおりです。サンプルがかなりランダムな方法で選択される場合、元のデータセットを厳密に定義する必要があります。選択された代表的なオブジェクト(medoid)は、データセット全体から選択されたものと同様になります。 CLARAは、データセットのいくつかのサンプルを抽出し、各サンプルにPAMを適用して、最適なクラスタリングを出力として返します。
CLARAのパフォーマンスは、サンプルサイズに基づいています。 PAMは特定のデータセット間で最良のkメドイドを検索しますが、CLARAはデータセットの選択されたサンプル間で最良のkメドイドを検索します。 CLARANS(大規模アプリケーションのクラスタリングはランダム化された検索に依存)として知られるk-medoidsタイプのアルゴリズムが提案されました。サンプリング方法をPAMに接続できます。 CLARAには検索のすべての段階で固定サンプルがありますが、CLARANSは検索のすべての段階である程度のランダム性を持つサンプルを描画します。
クラスタリング手順は、各ノードが可能性のあるソリューション(k個のメドイドのセット)であるグラフの検索と見なすことができます。 2つのノードのセットが1つのオブジェクトだけ異なる場合、2つのノードは隣接しています(特に、グラフ内の円弧によってリンクされています)。各ノードには、各オブジェクトとそのクラスターのメドイドとの間の完全な非類似度で表されるコストを割り当てることができます。
各ステップで、PAMは、最小コストのソリューションを検索する際に、最新のノードのすべてのネイバーを決定します。次に、最新のノードが、コストが最も高くなるネイバーに置き換えられます。 CLARAはデータセット全体のサンプルを操作するため、より少ない近傍を決定し、検索を最初のグラフよりも小さいサブグラフに制限します。
CLARANSは、PAMとCLARAの両方よりも効率的であることが実験的に示されています。オブジェクトが実際にクラスターに適用される量を定義するオブジェクトのプロパティのシルエット係数を使用して、最も「自然な」クラスターの数を検出するために使用できます。 CLARANSを使用すると、外れ値を検出することもできます。
CLARANSの計算の複雑さはO(n 2 )ここで、nはオブジェクトの数です。さらに、そのクラスタリング品質は、使用されるサンプリング方法に基づいています。ディスク上にあるデータオブジェクトを管理するCLARANSの機能は、R*ツリーなどの空間データ構造を探索する方法に焦点を当てることでさらに改善できます。
-
Excel で大量のデータ セットを分析する方法 (6 つの効果的な方法)
この記事では、 大規模なデータ セット を分析する方法を紹介します エクセルで。ビジネス活動の長所と短所を知ることは非常に重要です。アカウントと販売記録を保持するのは動的なプロセスです 組織の。販売、購入、または交換が一定期間に頻繁に発生するためです。そのため、今日から過去 3、4 か月間の売上や利益の記録を知りたい場合、それらに関する膨大な量のデータが見つかる可能性があります。幸いなことに、Excel には、この問題に役立つ非常に優れた機能がいくつかあります。 分析できます これらの 大規模なデータ セット Excel で部品ごとに計算できるため、計算が簡単になります。 Excel で大
-
完璧なデータ バックアップ プランの選び方
プラン A が失敗した場合に備えて、プラン B を常に用意していますか?あなたが常識を持っているなら、あなたはそれを持っているでしょう。特にデジタルデータの保存に関する場合. ノートパソコンがいつクラッシュしたり、盗難にあったり、ハッキングされたりするかわからないため、デジタル データのバックアップは必要です。したがって、重要なデータのバックアップを取っておくことをお勧めします。ただし、自分に最適なものを選択するのは少し難しい場合があります。データのオフライン バックアップは、古い外付けハード ドライブがいっぱいになるたびに新しい外付けハード ドライブを購入することを厭わない場合に適したオプシ