プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データ特性とは何ですか?


以下は、クラスター分析に強く影響する可能性のあるデータのいくつかの特性であり、次のとおりです-

高次元 −高次元データセットでは、単位体積あたりの数点である密度の従来のユークリッド概念が重要になります。多次元が増加するにつれて、体積は増加し、複数の点が複数の次元で指数関数的に増加しない限り、密度は0になる傾向があると考えられます。

また、近接の影響により、高次元の領域でより均一になる可能性があります。この事実を考慮する別の方法は、2つのポイント間の近接性に寄与する次元(属性)が多く、これにより近接性がより均一になる傾向があることです。

ほとんどのクラスタリング手法は近接性または密度に依存しているため、高次元の情報では問題が発生する可能性があります。このような問題に対処する1つの方法は、次元削減方法を採用することです。

サイズ −中小規模のデータセットで適切に機能する一部のクラスタリングアルゴリズムは、より高いデータセットを管理できません。

まばらさ −スパースデータには非対称属性が含まれ、ゼロ値は非ゼロ値ほど重要ではありません。したがって、非対称属性に適した類似度が一般的に使用されます。

ノイズと外れ値 −一般的なポイント(外れ値)は、クラスタリングアルゴリズム、特にプロトタイプベースのK-meansを含むアルゴリズムの実装を大幅に低下させる可能性があります。言い換えると、ノイズにより、単一リンクなどの手法が、結合してはならないクラスターに参加する可能性があります。

一般的に、クラスタリングアルゴリズムが使用される前に、ノイズと外れ値を除去するためのアルゴリズムが使用されます。さらに、一部のアルゴリズムでは、クラスタリングフェーズ中にノイズと外れ値を定義するポイントを特定し、それらを削除するか、その他の方法でそれらの悪影響を削除できます。

属性とデータセットの種類 −データセットは、構造化、グラフ、順序付けなど、複数のタイプにすることができますが、属性は、カテゴリ(名目または順序)または量(間隔または比率)で、バイナリ、離散、または連続です。

複数の近接度と密度の測定値は、複数のタイプのデータに適しています。いくつかの状況では、データを離散化または2値化して、目的の近接度測定またはクラスタリングアルゴリズムを利用できるようにする必要があります。

別の問題は、属性が広く複数のタイプ(たとえば、連続型と名目型)である場合に発生します。この方法では、近接性と密度は、よりアドホックに定義および提供するために、より複雑になります。最後に、特定の種類のデータを効率的に管理するには、特定のデータ構造とアルゴリズムが必要になる場合があります。

スケール −身長や体重などの複数の属性は、複数のスケールで測定できます。これらの違いは、2つのオブジェクト間の距離または類似性に大きく影響し、その結果、クラスター分析の結果に影響を与える可能性があります。メートル単位で計算される身長とキログラム単位で計算される体重に応じて、一連の人々をクラスタリングすることを検討してください。


  1. データセンターとは何ですか?

    datacenterと綴られることもあるデータセンター (一言)は、多数のコンピュータサーバーと関連機器を含む施設に付けられた名前です。 データセンターは、壁を超えた「コンピュータールーム」と考えてください。会社のユーザー宛てのメール、財務記録、ウェブサイトのデータなど、あらゆる種類のデータを保存できます。 データセンターは何に使用されますか? 一部のオンラインサービスは非常に大きいため、1台または2台のサーバーから実行できません。代わりに、これらのサービスを機能させるために必要なすべてのデータを保存および処理するために、数千または数百万台の接続されたコンピューターが必要です。 たと

  2. MySQLとは何ですか? MySQLのいくつかの特徴について話し合う

    ローカルで「mysequel」として知られているMySQLは、オープンソースのSQL(構造化クエリ言語)データベース管理システムです。 SQLは、データベースへのアクセスと操作に使用される言語です。 SQLは、ANSI /ISOSQL標準を使用して定義されます。 SQL標準は、1986年以来進化し、発展してきました。これは、SQLのいくつかのバージョンが存在することを意味します。現在、OracleCorporationによって開発および保守されています。公式ウェブサイトはhttps://www.mysql.com/です。 MySQLの特徴 MySQLデータベースシステムの特徴を理解しましょう