プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

データマイニングにおける回帰のタイプは何ですか?


回帰は、連続値の属性を予測するために使用できる教師あり機械学習アプローチのタイプを定義します。回帰は、ターゲット変数と予測変数の関連付けを調査するためのビジネス組織を提供します。これは、金銭的予測と時系列モデリングに使用できるデータを調査するために不可欠なツールです。

次のようなさまざまなタイプの回帰があります-

線形回帰 −線形回帰には、2つの属性(または変数)に適合する「最良の」線を見つけることが含まれるため、一方の属性を使用してもう一方の属性を予測できます。重回帰は線形回帰の進歩であり、2つ以上の属性が含まれ、レコードは多次元領域に適合します。

たとえば、方程式は

Y = a + b*X + e.

どこで、

aは切片を定義します

bは回帰直線の傾きを定義します

eはエラーを定義します

XとYは、それに応じて予測変数とターゲット変数を定義します。 Xが複数の線形方程式として定義された、複数の変数で構成されている場合。

線形回帰では、最小二乗法を使用して最適な直線が実装され、すべてのデータポイントから回帰直線までの偏差の二乗和の合計が減少します。したがって、一部の偏差は2乗されるため、正と負の偏差はキャンセルされません。

多項式回帰 −回帰方程式で個別の変数の累乗が1より大きい場合、それは多項式として定義されます。

たとえば、方程式は

Y = a + b * x2

特定の回帰では、最適な直線は一次方程式のような直線として扱われません。ただし、一部のデータポイントに適合した曲線を定義します。

ロジスティック回帰 −従属変数が0と1、真または偽、成功または失敗などの本質的にバイナリである場合、ロジスティック回帰法が存在するように見えます。したがって、目標値(Y)は0から1の範囲であり、一般に分類ベースの問題に使用されます。線形回帰とは異なり、線形関係を持つためにいくつかの独立変数と従属変数は必要ありません。

リッジ回帰 −リッジ回帰は、多重共線性の問題があるさまざまな回帰データを計算するために使用できるプロセスを定義します。多重共線性は、2つの別々の変数間の線形相関の継続です。

ラッソ回帰 − LASSOは、最小絶対収縮および選択演算子を表します。ラッソ回帰は、収縮を使用する線形回帰法です。ラッソ回帰では、一部のデータポイントは、平均とも呼ばれる中心点に向かって縮小されます。投げ縄手順は、他の回帰よりもいくつかのパラメーターを持つ単純でまばらなモデルに最も適しています。この回帰の方法は、多重共線性に耐えるモデルに適しています。


  1. データマイニングの外れ値の種類は何ですか?

    データマイニングにはさまざまな種類の外れ値があります- グローバル外れ値 −特定のデータセットでは、データオブジェクトが他の情報セットから本質的に逸脱している場合、そのデータオブジェクトはグローバルな外れ値です。グローバル外れ値はポイント異常として知られており、最も簡単なタイプの外れ値です。ほとんどの外れ値の検出方法は、グローバルな外れ値を発見することを目的としています。 グローバルな外れ値を特定できます。重要な問題は、問題のアプリケーションに関する偏差の適切な測定値を見つけることです。いくつかの測定値が提案されており、これらに応じて、外れ値の検出アプローチは複数のカテゴリに分割されます。

  2. データの整合性の種類は何ですか?

    データベースの整合性は、格納された情報の有効性と整合性を定義します。整合性は、一般に、データベースが違反することを許可されていない整合性ルールである制約の観点から定義されます。制約は、各属性に適用することも、テーブル間の関係に適用することもできます。 整合性制約により、許可されたユーザーがデータベースに加えた変更(更新の削除、挿入)によってデータの整合性が失われることはありません。したがって、整合性制約はデータベースへの偶発的な損傷を防ぎます。 データの整合性には、次のようなさまざまなタイプがあります- 論理的整合性 −リレーショナルデータベースでは、論理的な一貫性により、いくつかの