プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

統計データマイニングの方法論は何ですか?


統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。

データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。

統計データマイニングにはさまざまな方法論があります-

回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロバストなど、いくつかの形式があります(ロバスト手法は、エラーが正常条件を満たすために低下した場合、またはデータに有意な外れ値が含まれている場合に役立ちます)。

一般化線形モデル −これらのモデルとその一般化(一般化された加法モデル)により、線形回帰を利用した数学的応答変数のモデリングと同じ方法で、カテゴリ(名目)応答変数(そのいくつかの変換)を一連の予測変数に関連付けることができます。 。一般化線形モデルには、ロジスティック回帰とポアソン回帰が含まれます。

分散分析 −これらの方法は、数値応答変数と新しいカテゴリ変数(因子)によって定義された2つ以上の母集団の実験情報を分析します。一般に、ANOVA(単一因子分散分析)問題には、k個の母集団の比較が含まれるか、平均の少なくとも2つが異なるかどうかを判断するための処理が定義されます。

混合効果モデル −これらのモデルは、グループ化されたデータ(1つ以上のグループ化変数に従って分類できるデータ)を探索するためのものです。これらは通常、応答変数と、1つ以上の要因に従って結合されたデータ内のいくつかの共変量との間の関係を定義します。マルチレベルデータ、反復測定データ、ブロック設計、縦断データなど、いくつかのアプリケーション領域があります。

因子分析 −このメソッドは、特定の因子を生成するためにどの変数を組み合わせるかを決定できます。たとえば、いくつかの精神医学データの場合、関心のある特定の要因(たとえば、知能)を直接計算することはできません。ただし、対象の要素を反映する他の量の測定には適用できます。したがって、どの変数も従属変数として割り当てられません。

判別分析 −この手法は、カテゴリ別の応答変数を予測できます。一般化線形モデルとは異なり、独立変数は多変量正規分布に従うと見なされます。プロセスは、応答変数によって表されるグループを判別するいくつかの判別関数(独立変数の線形セット)を決定しようとします。判別分析は一般的に社会科学で使用されます。

生存分析 −生存分析には、確立された統計手法が複数存在します。これらの手法は当初、医学的分析を受けている患者が少なくとも時間tまで生き残ることができる確率を予測するために設計されました。

品質管理 −シューハート管理図やCUSUM管理図など、品質管理のための管理図を作成するために使用される複数の統計があります。これらの統計には、平均、標準偏差、範囲、カウント、移動平均、移動標準偏差、および移動範囲が含まれます。


  1. ウェブマイニングの方法論は何ですか?

    Webマイニングは、知識の学習または導出を目的とした、Webベースのデータへの機械学習(データマイニング)アプローチのアプリケーションです。 Webマイニングの方法論は、次の3つの異なる要素のいずれかに定義できます- Web使用状況マイニング − Web使用マイニングは、WebページのWebアクセスデータのセットを有効にする一種のWebマイニングです。この使用状況データは、アクセスされたWebページにつながる方向をサポートします。 このデータは、Webサーバーを介して接続ログに自動的に収集されます。 CGIスクリプトは、リファラーログ、ユーザーサブスクリプションデータ、調査ログなどの有用な

  2. パターンマイニングのアプリケーションは何ですか?

    パターンマイニングには、次のようなさまざまなアプリケーションがあります- パターンマイニングは、一般に、いくつかのデータ集約型アプリケーションでの前処理として、ノイズフィルタリングとデータクリーニングに使用されます。たとえば、数万の次元(たとえば、遺伝子の記述)を含むマイクロアレイデータを探索するために使用できます。 パターンマイニングは、データに隠された固有のメカニズムとクラスターの発見を提供します。たとえば、DBLPデータセットを考えると、頻繁なパターンマイニングでは、共著者クラスター(一般的に共同作業を行う著者を決定する)や会議クラスター(複数の著者と用語の共有を決定する)などの興味