プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングに関連するさまざまな問題は何ですか?


データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを共有することにより、有用な新しい相関関係、パターン、および傾向を見つける手順です。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。

データマイニングに関連するさまざまな問題は次のとおりです-

  • プライバシーの問題 −これは、技術のビジネスではなく、社会のビジネスに関連する基本的な問題です。それは単一のプライバシーの問題です。データマイニングは、日常的なビジネストランザクションを分析し、単一の購入習慣や好みに関する重要な量のデータを収集するために適用できるようにします。

  • データの整合性の問題 −実装上の重要な課題は、複数のソースからの競合する情報または冗長な情報をマージすることです。たとえば、銀行はさまざまなデータベースのクレジットカードアカウントを保護できます。個々のカード所有者の住所は、それぞれ異なる場合があります。ソフトウェアは、あるシステムから別のシステムにデータを変換し、現在入力されているアドレスを選択する必要があります。

  • リレーショナルデータベース構造または多次元データベース構造 −技術的な問題は、リレーショナルデータベース構造を開始するのが良いのか、多次元データベース構造を開始するのが良いのかということです。リレーショナル構造では、データはテーブルに保存され、アドホッククエリが有効になります。多次元構造では、キューブのセットが配列でリンクされ、サブセットがカテゴリに従って生成されます。多次元構造は多次元データマイニングをサポートしますが、クライアント/サーバー環境ではるかに優れた実装を行ったリレーショナル構造。

  • コスト −データマイニングクエリが効果的であるほど、データから収集される情報の有用性が高まり、収集および維持されるデータの量を増やすというプレッシャーが大きくなります。これにより、より迅速で強力なデータマイニングクエリに対するプレッシャーが高まります。これにより、より高額な、より大規模で高速なシステムへのプレッシャーが高まります。

  • データ品質 −これはデータマイニングの最大の課題の1つです。データ品質は、データの正確性と整合性を定義します。データ品質は、分析される情報の構造と一貫性にも関係する可能性があります。重複データの存在、データ標準の欠如、更新の適時性、および人為的エラーは、より複雑なデータマイニング手法の有効性に自動的に影響を与える可能性があります。

  • 相互運用性 −平均的な標準とプロセスを使用して、他のシステムまたはデータと連携するコンピューターシステムまたはデータの機能を定義します。データマイニングの場合、データベースとソフトウェアの相互運用性は、複数のデータベースの検索と分析を同時に可能にし、複数の機関のデータマイニング活動の互換性を提供するために不可欠です。


  1. データマイニングでのOLAP操作とは何ですか?

    OLAPは、On-LineAnalyticalProcessingの略です。 OLAPは、アナリスト、マネージャー、およびエグゼクティブが、生の情報から実際の次元を反映するように変更されたデータのさまざまなビューで、高速で一貫性のあるインタラクティブなアクセスを通じてデータへの洞察を得ることができるようにするソフトウェアテクノロジーの要素です。クライアントが学んだ企業。 OLAPサーバーは、データが保存される方法や場所を気にすることなく、データウェアハウスやデータマートからの多次元情報をビジネスユーザーに提供します。 OLAPサーバーの物理的な構造と実行では、データストレージの問題を考慮する

  2. データマイニングのOLAPツールとは何ですか?

    OLAPツールには次の3つの主要なカテゴリがあります- MOLAP −MOLAPは多次元OLAPを表します。データストレージユニットとしてタプルをサポートします。 MOLAPは、専用のn次元配列ストレージエンジンとOLAPミドルウェアを適用してデータを処理します。したがって、OLAPクエリは、関連する多次元ビュー(データキューブ)に直接アドレス指定することで完了します。 この構造は、トランザクション情報の集計への事前計算に重点を置いているため、クエリの実行パフォーマンスが高速になります。特に、MOLAPは、ロード時に各階層レベルで集計されたメジャーを事前に計算して保存し、これらの値を保