プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングのアーキテクチャは何ですか?


データマイニングは、パターン認識技術と統計的および数学的手法を使用して、リポジトリに保存されている大量のデータをシフトすることにより、意味のある新しい相関関係、パターン、および傾向を発見するプロセスです。疑わしい関係を見つけ、データ所有者にとって理解可能で有用な新しい方法でデータを要約するのは、観測データセットの分析です。

これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。データマイニングは、意味のある設計と方法を見つけるための大量のデータの自動または半自動手段による調査と分析のフェーズです。

データマイニングは、これまで知られていなかった潜在的に有用なデータが膨大な量の情報から抽出される重要な方法です。データマイニングプロセスにはいくつかのコンポーネントが含まれており、これらのコンポーネントはデータマイニングシステム構造を構成します。データマイニングの主な構成要素は次のとおりです-

  • 情報リポジトリ −これは、データベース、データウェアハウス、スプレッドシート、またはいくつかのタイプのデータリポジトリの1つまたはセットです。データクリーニングとデータ統合の手法をデータに実装できます。

  • データベースまたはデータウェアハウスサーバー −データベースまたはデータウェアハウスサーバーは、ユーザーのデータマイニング要求に基づいて、関連するデータを取得するために応答可能です。

  • 知識ベース −これは、検索をガイドしたり、結果のデザインの面白さを計算したりできるドメイン知識です。

  • データマイニングエンジン −これはデータマイニングシステムにとって重要であり、特性分析、関連および相関分析、分類、予測、クラスター分析、外れ値分析、進化分析などのタスクのための一連の機能モジュールが含まれています。

  • パターン評価モジュール −このコンポーネントは通常、興味深い指標を採用し、データマイニング構造と通信して、興味深いデザインに向けて検索を集中させます。

このセグメントは通常、データマイニングモジュールと連携するステークメジャーを使用して、魅力的なデザインに向けた検索を対象としています。賭け金のしきい値を利用して、発見されたデザインを除外できます。

言い換えれば、パターン評価モジュールは、使用されるデータマイニング技術の実行に基づいて、マイニングモジュールと調整することができます。効果的なデータマイニングのために、パターンステークの評価を可能な限りマイニングプロセスにプッシュして、検索を魅力的なデザインのみに限定することをお勧めします。

  • ユーザーインターフェース −このモジュールは、ユーザーとデータマイニングシステムを接続し、データマイニングクエリまたはタスクを定義し、検索に集中するのに役立つデータを提供し、中間データマイニングの結果に基づいて探索的データマイニングを実装することにより、ユーザーがシステムと対話できるようにします。

さらに、このコンポーネントを使用すると、ユーザーはデータベースとデータウェアハウスの設計またはデータ構造を参照し、マイニングされたパターンを評価し、さまざまな形式でパターンを視覚化できます。


  1. 時間的データマイニングとは何ですか?

    時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ

  2. データマイニングの理論的基礎は何ですか?

    データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード