プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データストリームクラスタリングの方法論は何ですか?


データストリームクラスタリングは、電話データ、マルチメディアデータ、金銭的トランザクションなどを含む継続的に表示されるデータのクラスタリングとして説明されます。データストリームクラスタリングは、一般にストリーミングアルゴリズムとして扱われ、目的は、一連のポイントを指定して、最適なクラスタリングを作成することです。少量のメモリと時間を利用して、ストリームの

一部のアプリケーションでは、類似性に基づいて、そのようなデータをセットに自動クラスタリングする必要がありました。例には、Web侵入検知、Webクリックストリームの分析、および株式市場分析のためのアプリケーションが含まれています。

静的データセットをクラスタリングするためのいくつかの動的な方法があります。データストリームをクラスタリングすると、そのようなアルゴリズムに追加の力がかかります。計算のデータストリームモデルでは、データのシングルパスを作成するためにアルゴリズムが必要であり、メモリが制限され、処理時間が明確であるのに対し、ストリームは非常に動的で、時間の経過とともに進化する可能性があります。

データストリームクラスタリングには、次のようないくつかの方法があります-

過去のデータの概要を計算して保存する −限られたメモリスペースと迅速な対応要件のため、以前に表示したデータの要約を計算し、関連する結果を保存し、必要に応じてそのような要約を使用して重要な統計を計算します。

分割統治戦略を適用する −データストリームを到着順序に基づいてチャンクに分割し、これらのチャンクの要約を計算してから、要約をマージできます。この方法では、より小さなビルディングブロックからより高いモデルを構築できます。

受信データストリームの増分クラスタリング −ストリームデータはシステムを継続的かつ段階的に導入するため、変更されたクラスターは段階的に洗練されている必要があります。

マイクロクラスタリングとマクロクラスタリングの分析を実行します −ストリームクラスターは次の2つのステップで計算できます-

  • 階層的なボトムアップクラスタリングアルゴリズムを適用することでマイクロクラスターが形成されるマイクロクラスターレベルで要約を計算して保存できます。

  • ユーザー指定のレベルでマクロクラスターを計算できます(別のクラスタリングアルゴリズムを使用してマイクロクラスターをグループ化するなど)。この2段階の計算により、データが効率的に圧縮され、エラーの領域が小さくなります。

クラスターの進化を分析するために複数の時間粒度を調査する −ストリームデータ分析では、最新のデータがリモート(つまり古い)データとは異なる役割を果たすことが多いため、傾斜した時間枠モデルを使用して、さまざまな時点で要約されたデータのスナップショットを保存します。

ストリームクラスタリングをオンラインプロセスとオフラインプロセスに分割する −データのストリーミング中に、データスナップショットの基本的な要約を計算、保存、および段階的に更新する必要があります。

したがって、このような動的に変化するクラスターを維持するには、オンラインプロセスが必要です。一方、ユーザーは、過去、現在、または進化しているクラスターについて質問するクエリを実行できます。このような分析は、オフラインで実行することも、オンラインクラスターのメンテナンスとは独立したプロセスとして実行することもできます。


  1. 統計データマイニングの方法論は何ですか?

    統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。 データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。 統計データマイニングにはさまざまな方法論があります- 回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロ

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの