プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

CUREとは何ですか?


CUREは、Representativeを使用したクラスタリングを表します。これは、複数の手法を使用して、非球形のアーキテクチャと不均一なサイズの高いデータセット、外れ値、およびクラスターを管理できるアプローチを作成するクラスタリングアルゴリズムです。 CUREは、クラスターからのいくつかの代表的なポイントを使用してクラスターを定義します。

これらのポイントは、クラスターのジオメトリとアーキテクチャーを取得します。最初の代表点はクラスターの中央から最も遠い点として選択され、残りの点は以前に選択されたすべての点から最も遠くなるように選択されます。この方法では、代表的なポイントが連想的によく分散されます。選択した複数のポイントはパラメータですが、10以上の値が適切に機能することが発見されました。

代表的なポイントが選択されているため、中心に向かって係数で減少します𝛼。このサポートにより、外れ値の影響が緩和されます。外れ値は、通常、中心から離れているため、さらに縮小されます。たとえば、中心から10単位の距離にある代表点は、3単位変化する可能性があります(𝛼 =0.7の場合)が、1単位の距離にある代表点は0.3単位変化する可能性があります。

CUREは、階層的クラスタリングプロセスの特定の特性を利用して、クラスタリングフェーズの2つの複数のポイントで外れ値を削除します。まず、クラスターがゆっくりと増加している場合、これは、定義上、外れ値が他の外れ値から遠く離れており、異なるポイントと頻繁に組み合わされないため、ほとんどの外れ値が含まれていることを意味します。

CUREでは、外れ値を除去するこの最初の手順は、通常、クラスターの数が最初のポイント数の1/3の場合に表示されます。外れ値の除去の2番目の手順は、複数のクラスターがKのオーダー、つまり複数の目的のクラスターである場合に表示されます。この時点で、小さなクラスターが削除されます。

CUREの最悪の場合の複雑さは$\mathrm {O(m ^ 2logm)} $であるため、高データセットに正確に使用することはできません。 CUREは、2つの方法を使用してクラスタリング手順を高速化します。最初の方法は、ランダムサンプルを取得し、サンプリングされたデータポイントに階層的クラスタリングを実装します。この後に、最も近い代表点を持つクラスターを選択することにより、クラスターの1つにデータセット内の残りの各ポイントを作成する最後のパスが続きます。

場合によっては、クラスタリングに必要なサンプルが多く、さらに2番目の手法が必要になります。この状況では、CUREはサンプルデータをパーティション化し、すべてのパーティションでポイントをクラスター化します。この事前クラスタリング手順の後に、中間クラスターのクラスタリングと、データセット内の各ポイントをクラスターの1つに作成する最後のパスが続きます。


  1. JDBCのセーブポイントとは何ですか?説明?

    セーブポイントインターフェイスは、追加のトランザクション制御を提供します。最新のDBMSは、OracleのPL/SQLなどの環境内でセーブポイントをサポートしています。 セーブポイントを設定するときは、トランザクション内で論理ロールバックポイントを定義します。保存ポイントを超えてエラーが発生した場合は、ロールバック方式を使用して、すべての変更を元に戻すか、保存ポイントの後に行われた変更のみを元に戻すことができます。 Connectionオブジェクトには、セーブポイントの管理に役立つ2つの新しいメソッドがあります- setSavepoint(String savepointName)

  2. Google マップのローカルガイドとは?

    ローカルガイドは、誰でも写真やレビューなどを投稿できる Google マップの無料サービスです。これは、ローカルガイド ユーザーが個人的な経験に基づく実際のフィードバックを通じてビジネスについてユーザーに知らせることで、Google マップの改善を支援することを目的としています。 ガイドが積極的であればあるほど、より多くのポイントが与えられます。ポイントを使用すると、レベル 1 からレベル 10 までレベルアップできます。Google マップであなたのレビュー、写真、回答などを見た人は誰でもあなたの現在のレベルを確認できるため、あなたの貢献が信頼と信憑性をもたらすのに役立ちます。 提供できる