プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおけるクラスタリングの例は何ですか?


物理オブジェクトまたは抽象オブジェクトのセットを同じオブジェクトのクラスに結合するプロセスは、クラスタリングと呼ばれます。クラスターは、同じクラスター内で互いに同じであり、他のクラスター内のオブジェクトとは異なるデータオブジェクトのセットです。データオブジェクトのクラスターは、複数のアプリケーションで1つのグループとしてまとめて考えることができます。クラスター分析は人間にとって不可欠な活動です。

クラスター分析は、これらのレコードに対して行われたさまざまな測定に応じて、同じレコードのグループまたはクラスターを形成するために使用されます。重要な設計は、分析の目的に役立つ方法でクラスターを定義することです。このデータは、天文学、考古学、医学、化学、教育、心理学、言語学、社会学など、いくつかの分野で使用されています。

次のようなクラスタリングの例がいくつかあります-

生物学 −生物学者は、王国、門、階級、シリーズ、科、属、種などのすべての生物の分類法(階層分類)を作成するために数年を費やしてきました。したがって、クラスター分析の初期の研究の一部が、そのような分類構造を見つけることができる数値分類学の分野を生み出そうとしたことは驚くべきことではありません。

さらに、生物学者はクラスタリングを使用して、アクセス可能な膨大な量の遺伝子データを分析しています。たとえば、クラスタリングは、同じ機能を持つ遺伝子のグループを発見するために使用されてきました。

情報検索 − World Wide Webには数十億のWebページが含まれており、検索エンジンへのクエリの結果は数百万のページを復元できます。クラスタリングを使用して、これらの検索結果をいくつかのクラスターにグループ化できます。各クラスターは、クエリの特定の要素を取ります。

たとえば、「映画」のクエリでは、レビュー、予告編、スター、劇場などのカテゴリに結合されたWebページを復元できます。各クラスターはサブカテゴリ(サブクラスター)に分割でき、ユーザーによるクエリ結果の分析をサポートする階層構造を作成します。

気候 −大気と海洋のパターンを発見するために必要な、地球の気候を学習することができます。クラスター分析は、極地の大気圧と陸域の気候に本質的な影響を与える海域のパターンを発見するために使用されてきました。

心理学と医学 −病気や状態には複数の変化が頻繁にあり、クラスター研究を使用してこれらの複数のサブカテゴリを認識することができます。たとえば、クラスタリングを使用して、いくつかのタイプのうつ病を特定できます。クラスター分析は、疾患の空間的または時間的割り当てのパターンを特定するためにも使用されます。

ビジネス −企業は、現在および潜在的なユーザーに関する膨大な量のデータを収集します。これは通常、ユーザーを少数のチームに分割して、より多くの分析とマーケティングイベントを行うために使用されます。


  1. データマイニングのOLAPツールとは何ですか?

    OLAPツールには次の3つの主要なカテゴリがあります- MOLAP −MOLAPは多次元OLAPを表します。データストレージユニットとしてタプルをサポートします。 MOLAPは、専用のn次元配列ストレージエンジンとOLAPミドルウェアを適用してデータを処理します。したがって、OLAPクエリは、関連する多次元ビュー(データキューブ)に直接アドレス指定することで完了します。 この構造は、トランザクション情報の集計への事前計算に重点を置いているため、クエリの実行パフォーマンスが高速になります。特に、MOLAPは、ロード時に各階層レベルで集計されたメジャーを事前に計算して保存し、これらの値を保

  2. 空間データマイニングのクラスタリング手法は何ですか?

    クラスター分析は、数年にわたって広く研究されてきた統計の一分野です。この手法を使用する利点は、概念階層などの背景知識を利用せずに、データから直接興味深い構造またはクラスターを発見できることです。 PAMやCLARAなどの統計で使用されるクラスタリングアルゴリズムは、計算の複雑さの観点から非効率的であると報告されています。効率性の懸念から、クラスター分析のためにCLARANS(ランダム化検索に基づく大規模アプリケーションのクラスタリング)と呼ばれる新しいアルゴリズムが開発されました。 PAM(メドイド周辺のパーティショニング) − n個のオブジェクトがあると想定し、PAMは最初に各クラスタ