プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの課題は何ですか?


データマイニングには次のようなさまざまな課題があります-

データマイニングアルゴリズムの効率とスケーラビリティ −データベース内の大量のデータから効果的にデータを抽出できます。知識発見アルゴリズムは、効率的で巨大なデータベースに拡張可能である必要があります。具体的には、データマイニングアルゴリズムの実行時間は、巨大なデータベースで予測可能で許容できるものでなければなりません。指数関数的またはチャネル次数の多項式の複雑さを持つアルゴリズムは、効率的に使用できません。

データマイニング結果の有用性、確実性、表現力 −識別された知識は、データベースの内容を正確に描写し、特定のアプリケーションに役立つ必要があります。不完全性は、近似ルールまたは定量的ルールの形式で、不確実性の尺度によって定義する必要があります。

ノイズと例外的なデータは、データマイニングシステムでエレガントに管理する必要があります。これはまた、統計的、分析的、およびシミュレーション的なモデルとツールの開発によって、興味や信頼性など、発見された知識の質を測定する体系的な研究を刺激します。

さまざまな種類のデータマイニング結果の表現 −膨大な量のデータから数種類の知識を発見することができます。また、発見された知識を複数のビューから調べて、さまざまな形式で表示することもできます。

これには、データマイニング要求と検出された知識の両方を高レベルの言語またはグラフィカルユーザーインターフェイスで定義して、データマイニングタスクを専門家以外の人が定義し、検出された知識をユーザーが理解して正確に利用できるようにする必要がありました。これには、表現力豊かな知識表現手法を選択するための発見システムも必要でした。

複数の抽象化レベルでのインタラクティブなマイニング知識 −データベースから何を正確に検出できるかを予測するのは複雑であるため、高レベルのデータマイニングクエリは、さらに調査するためにいくつかの興味深いトレースを開示できるプローブと見なす必要があります。

インタラクティブな発見を奨励する必要があります。これにより、ユーザーはデータマイニングのリクエストをインタラクティブに調整し、データフォーカシングを動的に変更し、データマイニングプロセスを段階的に深め、さまざまな抽象化レベルでさまざまな角度から情報とデータマイニングの結果を柔軟に表示できます。

さまざまなデータソースからのマイニング情報 −インターネットなど、広く利用可能なローカルおよびワイドエリアコンピュータネットワーク。さまざまなデータソースを接続し、巨大な分散型の異種データベースを形成できます。多様なデータセマンティクスを備えたフォーマット済みまたはフォーマットされていない情報の複数のソースからの知識のマイニングは、データマイニングに新しい要件をもたらします。

それ以外の場合、データマイニングは、単純なクエリシステムではほとんど検出できない異種データベースの高レベルのデータ規則性を開示するのに役立ちます。さらに、データベースの巨大なサイズ、データの幅広い分散、およびいくつかのデータマイニング方法の計算の複雑さは、並列および分散データマイニングアルゴリズムの進歩を促進します。


  1. 外れ値検出の課題は何ですか?

    外れ値は、別の構造によって生成されたかのように、本質的に残りのオブジェクトから逸脱するデータオブジェクトです。表示を簡単にするために、外れ値ではないデータオブジェクトを「通常の」情報または期待される情報として定義できます。同様に、外れ値を「異常な」データとして定義できます。 外れ値は、特定のクラスまたはクラスターで組み合わせることができないデータコンポーネントです。これらは、さまざまなデータオブジェクトの一般的な動作からいくつかの動作を持つデータオブジェクトです。この種のデータの分析は、知識を掘り起こすために重要になる可能性があります。 外れ値の検出にはさまざまな課題があります- 通常の

  2. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。