プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

頻繁なアイテムセットをマイニングするのは難しいタスクは何ですか?


データマイニングは、統計的および数値的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のレコードを転送することにより、有用な新しい相関関係、パターン、および傾向を発見するフェーズです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。

データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持って人によって実行されます。このフェーズには、テキストマイニング、Webマイニング、オーディオおよびビデオマイニング、記述的データマイニング、ソーシャルメディアマイニングなど、いくつかのタイプの機能が含まれています。シンプルまたは非常に具体的なソフトウェアを介して完成します。

データマイニングをアウトソーシングすることで、すべての作業をより迅速に、低い運用コストで実行できます。特定の企業は、新しいテクノロジーを使用して、手動で見つけることが不可能なデータを保存することもできます。複数のプラットフォームで利用できるデータは大量にありますが、アクセスできる知識は非常に限られています。

主な課題は、データを分析して、問題の解決や企業開発に使用できる重要なデータを抽出することです。データをマイニングし、そこからより良い判断を発見するために利用できる多くの動的な手段と手法があります。

多次元空間での情報の希薄さのために、抽象化の低い方法または原始的な方法でデータ項目間の強い関係を見つけることが難しいため、頻繁なアイテムセットをマイニングする機能は複雑です。

強い関連性は、常識的な知識を表すことができる高い概念レベルで見られますが、あるユーザーにとって常識を表すことができるものは、別のユーザーにとっては新しいように見える場合があります。したがって、データマイニングは、複数の抽象化レベルで相関ルールをマイニングし、複数の抽象化スペース間でパススルーする可能性を提供する必要があります。

頻繁なアイテムセットのマイニングが難しい理由は次のとおりです。

  • アソシエーションルールを生成するために必要な計算は、アイテムの数と考慮されるルールの複雑さとともに指数関数的に増加します。

  • アイテムは、製品タイプを含む1つの識別機能を除いて、同一であると見なされます。すべての問題がこの説明に当てはまるわけではありません。

  • 最も難しいタスクは、分析で使用する適切なアイテムのセットを決定することです。項目を一般化することにより、分析で使用される項目の頻度がほぼ同じであることを確認できます。

  • ごく少数のトランザクションでめったに発生しないアイテムがある場合、アソシエーションルールを生成することは困難です。


  1. 頻繁なパターンマイニングの基準は何ですか?

    頻繁なパターンマイニングには、次のようないくつかの基準があります- マイニングされるパターンの完全性に基づく −最小のサポートしきい値を提供することで、頻繁なアイテムセット、閉じた頻繁なアイテムセット、および最大の頻繁なアイテムセットのコレクション全体をマイニングできます。 また、制約付きの頻繁なアイテムセット(ユーザー定義の制約のコレクションを満たすことができます)、おおよその頻繁なアイテムセット(マイニングされた頻繁なアイテムセットのおおよそのサポート数のみを変更できます)、ほぼ一致する頻繁なアイテムセット(サポート数をカウントできます)を抽出することもできます比較的一致するアイテムセ

  2. データマイニングの理論的基礎は何ですか?

    データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード