プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

CluStreamとは何ですか?


CluStreamは、ユーザー指定のオンラインクラスタリングクエリに基づいて進化するデータストリームをクラスタリングするためのアルゴリズムです。クラスタリングプロセスをオンラインコンポーネントとオフラインコンポーネントに分割します。

オンラインコンポーネントは、マイクロクラスターを使用してデータストリームに関する要約統計量を計算して保存し、マイクロクラスターの増分オンライン計算と保守を実行します。オフラインコンポーネントは、マクロクラスタリングを実行し、傾斜した時間枠モデルに基づく保存された要約統計量を使用して、さまざまなユーザーの質問に答えます。

過去と現在の両方のストリームデータ情報に基づいてデータストリームを進化させるクラスター、傾斜した時間枠モデル(プログレッシブ対数モデルなど)が採用され、マイクロクラスターのセットのスナップショットがさまざまなレベルの粒度で保存されます。最近について。

ここでの直感は、古いイベントではなく、最近のイベントにはより多くの情報が必要になるということです。保存された情報は、履歴関連のユーザー固有のクラスタリングクエリの処理に使用できます。 CluStreamのマイクロクラスターは、クラスタリング機能として定義されています。

CluStreamは、BIRCHで開発されたクラスタリング機能の概念を拡張して、時間ドメインを含めます。クラスタリング機能の時間的拡張として、一連のd次元点のマイクロクラスターX 1 、。 。 。 、X n 、タイムスタンプ付き、T 1 、...、T n 、は(2d +3)タプル(CF2 x )として定義されます 、CF1 x 、CF2 t 、CF1 t 、n)、ここでCF2 x およびCF1 x CF2 t がd次元ベクトルである間、 、CF1 t 、およびnはスカラーです。 CF2 x ディメンションごとのデータ値の2乗の合計を維持します。つまり、$ \ sum_ {i =1} ^ {n} {X_ {i}} ^ {2} $

同様に、各ディメンションについて、データ値の合計はCF1 x で維持されます。 。統計的な観点から、CF2 x およびCF1 x データの2次モーメントと1次モーメントをそれぞれ表します。タイムスタンプの2乗の合計は、CF2 t で維持されます。 。タイムスタンプの合計はCF1 t で維持されます 。最後に、マイクロクラスター内のデータポイントの数はnで維持されます。

クラスタリング機能には加法および減法の特性があり、データストリームクラスター分析に非常に役立ちます。たとえば、2つのマイクロクラスターは、それぞれのクラスタリング機能を追加することでマージできます。さらに、大量のメモリを使用せずに、多数のマイクロクラスタを維持できます。これらのマイクロクラスターのスナップショットは、傾斜した時間枠に基づいて重要な時点で保存されます。

オンラインマイクロクラスター処理は、統計データの収集とマイクロクラスターの更新などの2つのフェーズに分かれています。最初のフェーズでは、合計q個のマイクロクラスターM 1 、...、M q 、が維持されます。ここで、qは通常、自然クラスターの数よりも大幅に大きく、使用可能なメモリの量によって決まります。

第2フェーズでは、マイクロクラスターが更新されます。新しいデータポイントはそれぞれ、既存のクラスターまたは新しいクラスターに追加されます。新しいクラスターが必要かどうかを判断でき、各クラスターの最大境界が定義されます。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. シリアル化とは

    最近のプロジェクト更新会議で、私のチームは、シリアライゼーションを使用してこのアプリケーションとの間でデータをやり取りする方法について話しました。 ソフトウェア プロジェクトにもっと関わりたいと考えていたあるエンジニアは、この用語になじみがないと言っていました。 より大規模なプロジェクトに飛び込むまで発生しない、このような重要なプロセスを見落としがちです。ある時点で私がそうであったように、これはこの人に当てはまりました。 だからそれについて書きたかった。その日、私は同僚がシリアライゼーションについて学ぶのを手伝いました。あなたは今日それについて学ぶことになります. シリアライゼーシ