プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおけるK-Meansアルゴリズムの追加の問題は何ですか?


K-Meansアルゴリズムには、次のようなさまざまな問題があります-

空のクラスターの処理 −前述の基本的なK-meansアルゴリズムの最初の問題は、割り当てフェーズ中にクラスターにポイントが割り当てられていない場合、ヌルクラスターを取得できることです。これが発生した場合、二乗誤差が必要以上に大きくなるため、置換重心を選択する方法が必要です。

1つの方法は、最近の図心から最も遠い点を選択することです。これにより、現在、合計二乗誤差の原因となっているポイントが削除されます。もう1つの方法は、SSEが最大のクラスターから置換重心を選択することです。これにより、通常、クラスターが分割され、クラスタリングの完全なSSEが減少します。複数のヌルクラスターがある場合、このプロセスを複数回繰り返すことができます。

外れ値 −二乗誤差法を使用すると、外れ値が検出されたクラスターに過度に影響を与える可能性があります。具体的には、外れ値が存在する場合、結果として得られるクラスター重心(プロトタイプ)は、可能な限り代表的ではないため、SSEも高くなります。

外れ値を見つけて、事前に削除しておくと便利です。外れ値を削除してはならない特定のクラスタリングアプリケーションがあることを理解することが重要です。データ圧縮にクラスタリングを使用する場合は、各ポイントをクラスター化する必要があります。財務分析など、場合によっては、異常値の可能性のある外れ値、たとえば、異常に収益性の高いユーザーが興味深いポイントになる可能性があります。

後処理によるSSEの削減 − SSEを減らす方法は、より多くのクラスターを見つけることです。つまり、より大きなKが必要です。このような場合、SSEは改善される可能性がありますが、クラスターの数を増やす必要はありません。これが可能なのは、Kmeansが一般に極小値に収束するためです。

結果のクラスターを「修正」して、SSEが低いクラスタリングを作成するには、さまざまな方法が使用されます。完全なSSEは、すべてのクラスターによって提供されるSSEの合計であるため、この方法は個々のクラスターをターゲットにすることです。クラスターの分割やマージなど、クラスターにいくつかの操作を実装することで、SSE全体を変更できます。

1つの方法は、別のクラスター分割およびマージ手順を使用することです。分割手順ではクラスターが分割され、マージ手順ではクラスターが結合されます。この方法では、ローカルSSE最小値を撤回し、捕捉されたクラスター数を使用してクラスタリングソリューションを作成するためにアクセスできます。以下は、分割およびマージフェーズで使用されるいくつかの方法です。-


  1. データマイニングインターフェイスとは何ですか?

    データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。 事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングをアウトソーシングすることで、すべての作業をより迅速に、低い運用コストで実行できます。特

  2. データマイニングでのOLAP操作とは何ですか?

    OLAPは、On-LineAnalyticalProcessingの略です。 OLAPは、アナリスト、マネージャー、およびエグゼクティブが、生の情報から実際の次元を反映するように変更されたデータのさまざまなビューで、高速で一貫性のあるインタラクティブなアクセスを通じてデータへの洞察を得ることができるようにするソフトウェアテクノロジーの要素です。クライアントが学んだ企業。 OLAPサーバーは、データが保存される方法や場所を気にすることなく、データウェアハウスやデータマートからの多次元情報をビジネスユーザーに提供します。 OLAPサーバーの物理的な構造と実行では、データストレージの問題を考慮する