プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングのクラスターの種類は何ですか?


クラスター分析は、これらのレコードに対して行われたさまざまな測定に応じて、同じレコードのグループまたはクラスターを形成するために使用されます。分析の目的に役立つ方法でクラスターを定義できます。このデータは、天文学、考古学、医学、化学、教育、心理学、言語学、社会学など、いくつかの分野で使用されています。

クラスターには次のようなさまざまな種類があります-

十分に分離されている −クラスターは、すべての要素がクラスター内にないオブジェクトよりもクラスター内の他のすべての要素に近いオブジェクトのグループです。場合によっては、しきい値によって、クラスター内のすべてのオブジェクトが互いに適切に近い(または類似している)必要があると定義できます。このクラスターの説明は、データに互いに完全に離れた自然なクラスターが含まれている場合にのみ必要です。

プロトタイプベース −クラスターは、各オブジェクトが複数のクラスターのプロトタイプよりもクラスターを表すプロトタイプに近いオブジェクトのグループです。連続属性を持つデータの場合、クラスターのプロトタイプは、クラスター内のさまざまなポイントの平均(平均)などの重心です。レコードにカテゴリ属性がある場合など、重心が重要でない場合、プロトタイプはクラスターの一般的なポイントなどのメドイドになります。

グラフベース −データがグラフとして一般的であり、ノードがオブジェクトであり、リンクがオブジェクト間の接続を定義している場合、クラスターは接続された要素として表すことができます。つまり、相互にリンクされているが、グループのさらに先のオブジェクトには接続されていないオブジェクトのセットです。

グラフベースのクラスターの重要なインスタンスは、隣接ベースのクラスターです。このクラスターでは、2つのオブジェクトが、互いに指定された距離内にある場合にのみリンクされます。これは、隣接ベースのクラスター内の各オブジェクトが、複数のクラスター内のあるポイントよりも、クラスター内の複数のオブジェクトに近いことを示しています。

密度ベースの方法 −一部の分割手法では、オブジェクト間の距離に応じてオブジェクトをクラスター化します。このようなアプローチでは、球形のクラスターのみを検出でき、任意の形状のクラスターを検出するのが困難になります。密度の概念に応じて、複数のクラスタリング手法が生成されています。

DBSCANは、密度のしきい値に従ってクラスターを増やす、頻繁な密度ベースの方法です。 OPTICSは、自動および相互クラスター分析のために拡張されたクラスタリング順序を計算する密度ベースの方法です。

グリッドベースのメソッド −グリッドベースの方法は、オブジェクト領域をグリッド構造を形成する有限の複数のセルに量子化します。いくつかのクラスタリングサービスがグリッド構造(つまり、量子化された空間)に実装されています。

このアプローチの利点は、処理時間が高速であることが多く、複数のデータオブジェクトに依存せず、量子化された空間の各次元の複数のセルのみに基づいていることです。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの