プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおける制約の分類とは何ですか?


制約ベースのアルゴリズムでは、頻繁なアイテムセット生成フェーズで検索領域を減らすために制約が必要です(アソシエーションルールの作成手順は、網羅的なアルゴリズムの手順とまったく同じです)。

制約の重要性は明確に定義されており、顧客にとって興味深い相関ルールのみを作成します。この方法は非常に簡単で、ルール領域が縮小されるため、残りのルールは制約を使用します。

制約には次の3種類があります-

インスタンスの制約 −インスタンスの制約は、クラスター分析でインスタンスのペアまたはセットをグループ化する方法を定義します。このカテゴリには、-

などの2種類の制約があります。
  • リンクが必要な制約 − 2つのオブジェクトxとyにリンクが必要な制約が定義されている場合、クラスター分析の出力では、xとyを1つのクラスターにグループ化する必要があります。これらのmust-link制約は推移的です。つまり、must-link(x、y)とmust-link(y、z)、次にmust-link(x、z)です。

  • リンクできない制約 −リンクできない制約は、リンクする必要のある制約の逆です。リンクできない制約が2つのオブジェクトxとyに定義されている場合、クラスター分析の出力では、xとyは複数のクラスターに属している必要があります。リンクできない制約が伴う可能性があります。リンクできない場合(x、y)、リンクする必要がある(x、x )、およびリンクする必要があります(y、y )、リンクできません(x 、y

クラスターの制約 −クラスターの制約は、クラスターの要件を定義し、クラスターの属性を利用する可能性があります。たとえば、制約は、クラスター内のオブジェクトの最小数、クラスターの最大直径、またはクラスターの形状(たとえば、凸面)を定義できます。クラスタリング手法を分割するために定義されたクラスターの数は、クラスターの制約としてマークできます。

類似性測定の制約 −ユークリッド距離を含む類似度は、クラスター分析でオブジェクト間の類似度を計算するために使用されます。さまざまなアプリケーションで、例外が使用されます。類似性測定の制約は、類似性計算が尊重しなければならない要件を定義します。

たとえば、人々を広場内の変化するオブジェクトとしてクラスター化できますが、ユークリッド距離は2点間の歩行距離を生成できますが、類似性測定の制約は、最短距離を実行する軌道が壁を越えることができないことです。

クラスタリング制約を分類する別のアプローチでは、制約をどの程度厳密に尊重する必要があるかを考慮します。制約を混乱させるクラスタリングが受け入れられない場合、制約は困難です。制約を混乱させるクラスタリングが望ましくないが、より良い解決策が見つからない場合は許容できる場合、制約はソフトです。ソフト制約はプリファレンスとも呼ばれます。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. プライバシーを保護するデータマイニングの方法は何ですか?

    プライバシー保護データマイニングは、データマイニングにおけるプライバシーセキュリティに対応するデータマイニング研究のアプリケーションです。これは、プライバシーが強化された、またはプライバシーに配慮したデータマイニングと呼ばれます。基本的な機密データ値を開示せずに、真のデータマイニング結果を取得することを扱います。 ほとんどのプライバシー保護データマイニングアプローチでは、データにさまざまな形式の変換を使用してプライバシー保護を実装します。一般に、このような方法では、プライバシーを維持するために説明の粒度が低くなります。 たとえば、単一のユーザーからユーザーグループにデータを一般化できます。