プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

予測子の数を減らす方法は?


データマイニングでよくある問題は、このモデルで予測変数として選択できる複数の変数を使用できる場合に、回帰方程式を使用して従属変数の値を予測することです。

以前は隠されていた関係が出現することを期待して、多数の変数を含めることを支持する別の考慮事項。たとえば、ある会社は、椅子とテーブルの脚に擦り傷防止プロテクターを購入した顧客の方が信用リスクが低いことを発見しました。

考えられるすべての変数をモデルに投入する前に注意を払う理由はいくつかあります。

  • 予想される予測のために予測子の完全な補完を設定することは、高額であるか、実行不可能である可能性があります。

  • より少ない予測子をより正確に計算できる可能性があります(たとえば、調査で)。

  • 予測子が多いほど、データの値が欠落する可能性が高くなります。値が欠落しているレコードを削除または代入すると、複数の予測子により、レコードの削除または代入の割合が高くなります。

  • 倹約は良いモデルの本質的な特徴です。パラメータが少ないモデルでの予測子の影響について、より多くの洞察を得ることができます。

  • いくつかの変数を持つモデルの多重共線性のため、回帰係数の推定はあいまいになる可能性があります。 (多重共線性とは、結果変数と同じ線形関係を共有する2つ以上の予測変数の存在です。)

  • 回帰係数は、倹約的なモデルに対して強力です。非常に大まかな経験則の1つは、5(p + 2)より大きい複数のレコードnを持つことです。ここで、pは予測子の数です。

  • 結果変数と無相関の予測変数を使用すると、予測の分散が増加することを示すことができます。

  • 結果変数と相関する予測子を削除すると、予測の平均誤差(バイアス)が増加する可能性があることを示すことができます。

最後の2つのポイントは、予測子が少なすぎる場合と多すぎる場合の間にトレードオフがあることを定義しています。一般に、いくつかのバイアスを受け入れることで、予測の分散を減らすことができます。このバイアスと分散のトレードオフは、複数の予測変数にとって特に重要です。これは、モデル内に、ノイズの標準偏差に対応する小さな係数を持ち、他の変数との少なくとも中程度の相関を示す変数が存在する可能性があるためです。

>

このような変数を削除すると、予測の分散が減少するため、予測が改善されます。この種の偏りと分散のトレードオフは、予測と分類のためのデータマイニング手順の重要な要素です。


  1. ExcelでROUNDDOWN関数を使用する方法

    ラウンドダウン 関数は、 Microsoft Excelの数学および三角関数です。 、およびその目的は、数値をゼロに向かって切り捨てることです。 ROUNDDOWN関数の式はROUNDDOWN(数値、数字)です。 ROUNDDOWN関数の構文は次のとおりです。 番号 :切り捨てたい実数。必須です。 数字数 :数値を四捨五入する桁数。必須です。 ExcelでROUNDDOWN関数を使用する方法 ExcelのROUNDDOWN関数を使用して数値を切り上げるには、3つの方法があります。これらすべてについて、この投稿で説明しました。 MicrosoftExcelを起動します。 テーブルを作成す

  2. Excelで数値の平方根を見つける方法

    Microsoft Excel 複雑な計算を実行するための強力なツールです。 Excelで作業している場合、ほぼ毎日数学演算を実行することに遭遇する可能性があります。時々、Excelで簡単な計算を行う際に問題が発生し、Excelで平方根を見つけることがその1つです。したがって、この記事では、数値の平方根を見つけるための3つの異なる方法を紹介します。 Excelで。 Excelで数値の平方根を計算する SQRT関数、POWER関数、および指数式を使用すると、Excelで数値の平方根を簡単に計算できます。 1。 SQRT関数を使用してExcelで数値の平方根を見つける Excelは、数値の平