プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

判別分析のパフォーマンスはどうですか?


判別分析アプローチは、分類スコアに現れる2つの主要な仮定に依存しています。最初に、一部のクラスの予測子の測定値が多変量正規分布から現れると見なします。この仮説が合理的に組み立てられている場合、判別分析は、ロジスティック回帰を含む他の分類方法よりも動的なツールです。

データが多変量正規分布である場合、判別分析はロジスティック回帰よりも30%効果的であり、同等の結果に到達するために必要なレコードは30%少ないことが表示されます。この方法は、予測子が非正規変数、さらにはダミー変数である可能性があるという意味で、正規性から逸脱するのに比較的強力であることが示されています。

これは、最小のクラスが十分に大きい(約20レコードを超える)ことを考えると当てはまります。このアプローチは、個々の予測子の単変量領域と多変量領域の両方で外れ値に敏感であるとも呼ばれます。探索的分析を使用して、極端な方法を特定し、それらを削除できるかどうかを判断する必要があります。

判別分析に続く2番目の仮定は、クラス内の複数の予測子間の相関構造がクラス間で同じであるということです。これは、クラスごとに個別に予測子間の相関行列を計算し、行列を比較することで確認できます。

相関がクラス間でかなり対照的である場合、分類子は、最も変動性の高いクラスにレコードを定義するように影響を与えます。相関構造が本質的に異なり、データセットが高い場合、代替案は2次判別分析を必要とすることです。

適度なアプローチは、正規性と相関に関する探索的分析を請求し、モデルをトレーニングして計算し、分類の精度と元の探索から学んだことに基づいて、外れ値を調べる必要があるかどうか、または予測子の選択をさらに探索することです。変数の再検討。

コンピューティングパフォーマンスのために検証グループを利用することについての同じ議論は、今でも続いています。たとえば、乗用芝刈り機では、家族1、13、および17が誤分類されています。これは、モデルがこれらのレコードに対して12.5%のエラー率をもたらすことを意味します。

このレートは偏った尺度です。分類関数のフィッティングとエラーの計算に同等のデータを使用できるため、楽観的です。したがって、いくつかのモデルと同様に、分類関数の計算に含まれていなかったデータを含む検証セットのパフォーマンスをチェックできます。

判別分析から混同行列を取得でき、分類スコアを正確に、または分類スコアから計算された傾向(クラス登録の確率)が必要になる場合があります。どちらの場合も、各レコードのクラス割り当ては、最大のスコアまたは確率に応じて決定されます。これらの分類を、これらのデータの実際のクラスメンバーシップと比較できます。これにより、混同行列が生成されます。


  1. Cトークンとは何ですか?

    Cプログラムは命令のコレクションであり、各命令は個々のユニットのコレクションです。 Cプログラムのすべての小さな個々のユニットは一般にトークンと呼ばれ、Cプログラムのすべての命令はトークンのコレクションです。 トークンはCプログラムを構築するために使用され、Cプログラムの基本的な構成要素とも言われています。 Cプログラムでは、トークンには次のものが含まれます- キーワード 識別子 オペレーター 特別な記号 定数 文字列 データ値 Cプログラムでは、これらすべてのキーワード、識別子、演算子、特殊記号、定数、文字列、およびデータ値の集合をトークンと呼びます。 例 以下は、大文字のアル

  2. C#のコメントは何ですか?

    コメントはコードの説明に使用されます。コンパイラはコメントエントリを無視します。 C#プログラムの複数行コメントは、以下に示すように/ *で始まり、文字*/で終わります。 複数行のコメント /* The following is a mult-line comment In C# /* /*...*/はコンパイラによって無視され、プログラムにコメントを追加するために配置されます。 1行のコメント // variable int a = 10; 以下は、単一行コメントと複数行コメントを追加する方法を示すサンプルC#プログラムです- 例 using System; namespace Dem