データマイニングの歴史とは何ですか?
データマイニングは、統計的および数学的手法を含むパターン認識技術を使用して、リポジトリに保存された大量のデータを転送することにより、有用な新しい相関関係、パターン、および傾向を見つけるプロセスです。事実に基づくデータセットを分析して、疑わしい関係を発見し、論理的でデータ所有者に役立つ新しい方法でレコードを要約します。
これは、データベースの所有者にとって明確で有益な結果を得るために、最初は未知である規則性または関係を見つけるための大量の情報の選択、調査、およびモデリングの手順です。
データマイニングはデータサイエンスに似ています。それは、特定の状況で、特定のデータセットに対して、目的を持って人によって実行されます。このフェーズには、テキストマイニング、Webマイニング、オーディオおよびビデオマイニング、画像データマイニング、ソーシャルメディアマイニングなど、いくつかのタイプのサービスが含まれます。シンプルまたは非常に具体的なソフトウェアを介して完成します。
データマイニングをアウトソーシングすることで、すべての作業をより迅速に、低い運用コストで実行できます。特定の企業は、新しいテクノロジーを使用して、手動で見つけることが不可能なデータを保存することもできます。複数のプラットフォームで利用できるデータは大量にありますが、アクセスできる知識は非常に限られています。
データ内の有用なパターンを見つけるアプローチには、データマイニング、知識抽出、データディスカバリー、データハーベスティング、データ考古学、データパターン処理など、いくつかの名前が付けられています。データマイニングは、統計学者、データアナリスト、および経営情報システム(MIS)コミュニティによって使用されてきました。
また、データベース領域での人気も向上しています。データベースでの知識発見のプロセスは、知識がデータ駆動型発見の最終製品であることを維持するために、1989年の最初のKDDワークショップ(Piatetsky-Shapiro 1991)で発明されました。人工知能や機械学習の分野で普及しています。
KDDは、データから有用な知識を発見する完全なプロセスを定義し、データマイニングはこのプロセスの特定のステップを定義します。データマイニングは、データからパターンを抽出するための特定のアルゴリズムのアプリケーションです。 KDDプロセスと(プロセス内の)データマイニングステップの違いは、このオブジェクトの中心点です。
データの準備、データの選択、データのクリーニング、適切な事前知識の組み込み、マイニングの結果の適切な分析など、KDDプロセスのさらなるステップは、有用な知識がデータから変更されるようにするために重要です。
データマイニング技術の盲目的な適用(統計文献でのデータドレッジングとして正当に不承認)は危険な活動であり、無意味で無効な設計の発見に簡単につながる可能性があります。
-
時間的データマイニングとは何ですか?
時間的データマイニングは、時間的データの大規模なセットから、重要で、暗黙的で、潜在的に不可欠なデータを抽出するプロセスを定義します。時間データは一連の主要なデータタイプであり、通常は数値であり、時間データから有益な知識を収集することを扱います。 時間的データマイニングの目的は、時間的シーケンスと呼ばれるアルファベットからの名目上のシンボルのシーケンスと連続的な実数のシーケンスで構成される、より高いシーケンシャルデータの時間的パターン、予期しない傾向、またはいくつかの隠れた関係を見つけることです。機械学習、統計、データベーステクノロジーからの一連のアプローチを利用することにより、時系列と呼ばれ
-
データマイニングの理論的基礎は何ですか?
データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード