プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングの理論的基礎は何ですか?


データマイニングの基礎となるいくつかの理論には、次のものがあります-

データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。

データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。

データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコードすることにより、特定の情報を圧縮することです。

パターンの発見 −この理論では、データマイニングの基本は、関連付け、分類モデル、シーケンシャルパターンなど、データベースに表示されるパターンを見つけることです。機械学習、ニューラルネットワーク、アソシエーションマイニング、シーケンシャルパターンマイニング、クラスタリング、そして、いくつかの異なるサブフィールドがこの理論に貢献しています。

確率論 −これは統計理論に基づいています。この理論では、データマイニングの基本は、ベイジアン信念ネットワークや階層ベイジアンモデルなどの確率変数の同時確率分布を見つけることです。

ミクロ経済学の見解 −ミクロ経済学の見解では、データマイニングは、一部の企業の意思決定手順で使用できる範囲でのみ魅力的なパターンを発見するサービスと見なされます(たとえば、マーケティングアプローチや生産計画に関して)。

このビューはサービスの1つであり、パターンに基づくことができれば、パターンは興味深いと見なされます。企業は最適化の問題に直面していると見なされており、その目的は意思決定のサービスまたは価値を最大化することです。この理論では、データマイニングは非線形最適化の問題になります。

帰納的データベース −この理論によれば、データベーススキーマには、データベースに保存されているデータとパターンが含まれています。データマイニングは、データベースに誘導を実装する際の問題であり、データベースの情報と理論(つまり、パターン)をクエリする機能があります。この見方は、データベースシステムの複数の研究者の間で有名です。

これらの理論は共同で排他的ではありません。たとえば、パターン検出は、データ削減またはデータ圧縮の設計と見なすこともできます。理想的には、理論的フレームワークは、典型的なデータマイニングタスク(関連付け、分類、クラスタリングを含む)をモデル化し、確率的機能を備え、いくつかの形式のデータを管理でき、データマイニングの反復的かつインタラクティブな本質を処理できる必要があります。さらに、これらの要件を満たす、明確に定義されたデータマイニングの構造を確立するための努力が必要です。


  1. データマイニングインターフェイスとは何ですか?

    データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。 事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。 これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。 データマイニングをアウトソーシングすることで、すべての作業をより迅速に、低い運用コストで実行できます。特

  2. 時間的データマイニングとは何ですか?

    時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ