プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

クラスタリングとは何ですか?


物理オブジェクトまたは抽象オブジェクトのセットを同じオブジェクトのクラスに結合するプロセスは、クラスタリングと呼ばれます。クラスターは、同じクラスター内で互いに同じであり、他のクラスター内のオブジェクトとは異なるデータオブジェクトのセットです。データオブジェクトのクラスターは、複数のアプリケーションで1つのグループとしてまとめて考えることができます。クラスター分析は人間にとって不可欠な活動です。

クラスター分析は、これらのレコードに対して行われたさまざまな測定に応じて、同じレコードのグループまたはクラスターを形成するために使用されます。重要な設計は、分析の目的に役立つ方法でクラスターを定義することです。このデータは、天文学、考古学、医学、化学、教育、心理学、言語学、社会学など、いくつかの分野で使用されています。

マーケティングにおけるクラスター分析の有名な用途の1つは、市場のセグメンテーションです。ユーザーは人口統計データとトランザクション履歴データに基づいてセグメント化され、マーケティング手法はセグメントごとに調整されます。

別の用語は、類似性の競争力のある尺度に従って同じ製品のチームを識別する市場構造分析です。マーケティングおよび政治予測では、米国の郵便番号を使用した近隣のクラスタリングが、ライフスタイルごとに近隣をグループ化するために強力に使用されています。

財務では、クラスター分析を使用してバランスの取れたポートフォリオを作成できます-いくつかの投資機会(株式など)に関するデータが与えられると、リターン(日次、週次、または月次)、ボラティリティ、ベータ、および業界および時価総額を含むその他の特性。複数のクラスターから証券を選択すると、バランスの取れたポートフォリオを作成するのに役立ちます。

金融におけるクラスター分析の別の操作は、市場分析です。特定の業界について、成長率、収益性、業界の規模、製品範囲、いくつかの国際市場での存在感などの指標に基づいて、同じ企業のチームを見つけることに関心があります。次に、これらのチームを分析して、市場構造を学習し、たとえば、誰が競合他社であるかを判断できます。

クラスター分析は、大量のデータに使用できます。たとえば、インターネット検索エンジンは、クラスタリング手法を使用して、ユーザーが送信するクエリをクラスタリングします。これらは、検索アルゴリズムの開発に使用できます。

一般に、クラスター化に使用される基本データは、さまざまな変数の測定値のテーブルであり、各列は変数を定義し、行はレコードを定義します。目的は、同じレコードが同じグループに含まれるようにデータのグループを形成することです。クラスターの数は、事前に指定することも、データから決定することもできます。


  1. モデルベースのクラスタリングとは何ですか?

    モデルベースのクラスタリングは、データクラスタリングへの統計的アプローチです。観測された(多変量)データは、コンポーネントモデルの有限の組み合わせから作成されたと見なされます。各コンポーネントモデルは確率分布であり、通常はパラメトリック多変量分布です。 たとえば、多変量ガウス混合モデルでは、各コンポーネントは多変量ガウス分布です。特定の観測値の生成を担当するコンポーネントによって、観測値が属するクラスターが決まります。 モデルベースのクラスタリングは、特定のデータといくつかの数学モデルの間の適合を促進する試みであり、データが基本的な確率分布の組み合わせによって作成されるという仮定に基づいて

  2. ドキュメントクラスタリング分析とは何ですか?

    ドキュメントのクラスタリングは、教師なしでファイルを整理するための重要な手法です。ドキュメントが用語ベクトルとして表される場合、クラスタリング手法を適用できます。ドキュメントスペースは、数百から数千に及ぶ大きな次元を持ち続けています。 次元の呪いのために、最初にドキュメントを低次元の部分空間に投影することは理にかなっています。そこでは、ドキュメント空間の意味構造が明確になります。低次元のセマンティック領域では、従来のクラスタリングアルゴリズムを使用できます。 ドキュメントクラスタリング分析にはいくつかの方法があります- スペクトルクラスタリング −スペクトルクラスタリング手法は、最初に元