プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

統計データマイニングの手法は何ですか?


統計データマイニングには、次のようなさまざまな手法があります-

回帰 −これらのアプローチは、変数が数値である1つ以上の予測変数(独立)から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロバストなど、いくつかの形式があります(ロバスト手法は、エラーが正常条件を満たさない場合、またはデータに有意な外れ値が含まれる場合に役立ちます)。

一般化線形モデル −これらのモデル、およびそれらの一般化(一般化された加法モデル)により、線形回帰を使用した数値応答変数のモデリングなど、カテゴリ応答変数(またはその変換)を一連の予測変数に関連付けることができます。一般化線形モデルには、ロジスティック回帰とポアソン回帰が含まれています。

分散分析 −これらの方法は、数値応答変数と1つ以上のカテゴリ変数(因子)によって定義された2つ以上の母集団の実験データを分析します。一般に、ANOVA(単一因子分散分析)問題には、k個の母集団の比較が含まれるか、平均の少なくとも2つが異なるかどうかを判断するための処理が定義されます。

混合効果モデル −これらのモデルは、グループ化されたデータ(1つ以上のグループ化変数ごとに分類できるデータ)を分析するためのものです。これらは通常、応答変数と、1つ以上の要因に従って組み合わされたデータ内のいくつかの共変量との間の関係を定義します。マルチレベルデータ、反復測定データ、ブロック設計、縦断データなどの一般的なアプリケーション分野。

因子分析 −このメソッドは、特定の因子を作成するためにどの変数をマージするかを決定できます。たとえば、一部の精神医学データでは、関心のある特定の要因(知能を含む)を直接測定することは不可能です。ただし、関心のある要素を反映する他の量(学生のテストスコアを含む)の測定には適用できます。ここでは、どの変数も従属変数として指定されていません。

判別分析 −このメソッドは、カテゴリ別の応答変数を予測できます。一般化線形モデルとは異なり、独立変数が多変量正規分布に従うことを意味します。

このプロセスは、応答変数によって表されるグループを判別するいくつかの判別関数(独立変数の線形セット)を判別しようとします。判別分析は一般的に社会科学で使用されます。

時系列分析 −自己回帰法、単変量ARIMA(自己回帰和分移動平均)モデリング、ロングメモリ時系列モデリングなど、時系列データを分析するための統計手法がいくつかあります。

生存分析 −生存分析には、確立された統計手法がいくつか存在します。これらの方法は当初、治療を受けている患者が少なくとも時間tまで生き残ることができる確率を予測するために設計されました。

品質管理 −シューハート管理図やCUSUM管理図(どちらもグループの要約統計量を表示)など、いくつかの統計を使用して品質管理用の管理図を作成できます。これらの統計には、平均、標準偏差、範囲、カウント、移動平均、移動標準偏差、および移動範囲が含まれます。


  1. データマイニングの理論的基礎は何ですか?

    データマイニングの基礎となるいくつかの理論には、次のものがあります- データ削減 −この理論では、データマイニングの基本は、データ表現を減らすことです。データ削減は、巨大なデータベースでのクエリに対する迅速な近似回答を取得する必要性に応じて、速度と確実性を交換します。 データ削減方法には、特異値分解(主成分分析の背後にある駆動コンポーネント)、ウェーブレット、回帰、対数線形モデル、ヒストグラム、クラスタリング、サンプリング、およびインデックスツリーの開発が含まれます。 データ圧縮 −この理論によれば、データマイニングの基本は、ビット、相関ルール、決定木、クラスターなどの観点からエンコード

  2. 統計データマイニングの方法論は何ですか?

    統計データマイニング技術では、一般的に多次元であり、場合によってはいくつかの複雑なタイプの大量のデータを効果的に処理するために作成されます。 データ分析、特に数値データについては、確立された統計手法がいくつかあります。これらの方法は、科学的記録(物理学、工学、製造、心理学、医学の実験からの記録など)や、経済学や社会科学からの情報に広く使用されています。 統計データマイニングにはさまざまな方法論があります- 回帰 −一般に、これらの手法は、変数が数値である新しい予測子(独立)変数から応答(従属)変数の値を予測するために使用されます。回帰には、線形、多重、加重、多項式、ノンパラメトリック、ロ