プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

ROC曲線とは何ですか?


ROCはReceiverOperatingCharacteristicの略です。 ROC曲線は、2つの分類モデルを分析するための便利な視覚的ツールです。 ROC曲線は、第二次世界大戦中にレーダー画像を検索するために作成された信号検出理論から得られたものです。

ROC曲線は、特定のモデルの真陽性率または感度(認識された正のタプルの割合)と偽陽性率(誤って陽性として認識された負のタプルの割合)の間のトレードオフを示します。

>

2つのクラスの問題がある場合、モデルが「はい」のケースを正確に識別できる速度と、複数の「部分」で「いいえ」のケースを「はい」と誤って認識する速度との間のトレードオフを予測できます。テストセットの」。真陽性率のいくらかの増加は、偽陽性率の増加の値で現れます。 ROC曲線の下の領域は、モデルの精度の評価です。

特定の分類モデルMのROC曲線を操作できます。モデルは、すべてのテストタプルの予測クラスの確率またはランキングを返すことができる必要があります。テストタプルを降順でランク付けする必要があります。分類子が一般的にポジティブクラスに属していると見なすか、「はい」クラスがリストの一番上に表示されます。

単純ベイズ分類器とバックプロパゲーション分類器が適切ですが、決定木分類器を含めると、すべての予測のクラス確率分布を返すように簡単に変更できます。 ROC曲線の縦軸は、真の陽性率を定義します。横軸は偽陽性率を定義します。 MのROC曲線は次のようにプロットされます。

これは左下隅(真陽性率と偽陽性率の両方が0)から始まり、リストの最初にあるタプルの実際のクラスラベルをテストできます。それが真の正の場合(つまり、正しく定義された正のタプル)、ROC曲線上で変化し、点をプロットできます。

2つの分類モデルのROC曲線を表示します。プロットには対角線も表示され、そのようなモデルの真陽性ごとに、通常は偽陽性に遭遇します。

したがって、モデルのROC曲線が対角線に近いほど、モデルの効率は低下します。モデルが最適である場合、ランク付けされたリストを変更する可能性があるため、元々は真のポジティブに遭遇する可能性があります。したがって、曲線はゼロから急に上に移動する可能性があります。後で、真陽性がますます少なくなり、次第に偽陽性が発生し始める可能性があるため、曲線はケースオフになり、より水平になります。


  1. サンプリングベースのアプローチとは何ですか?

    サンプリングは、クラスの不均衡の問題を処理するために広く使用されている方法です。サンプリングの概念は、まれなクラスがトレーニングセットで明確に定義されるように、例の分布を変更することです。アンダーサンプリング、オーバーサンプリング、および両方のアプローチのハイブリッドなど、サンプリングにはさまざまな手法があります。たとえば、100個の肯定的な例と1000個の否定的な例を含むデータセットについて考えてみます。 アンダーサンプリングの方法では、100個のネガティブな例のランダムなサンプルが選択され、すべてのポジティブな例で事前にトレーニングセットが形成されます。この方法の問題の1つは、有用なネガ

  2. ROCとは何ですか?

    ROCは、受信者動作特性曲線の略です。これは、分類器の真陽性率と偽陽性率の間のトレードオフを示すためのグラフィカルな方法です。 ROC曲線では、真陽性率(TPR)がg軸の前にプロットされ、偽陽性率(FPR)がr軸に表示されます。曲線の前方の各ポイントは、分類子によって説得されたモデルの1つと相関していました。 ROC曲線に沿って、よく知られた解釈を持ついくつかの重要なポイントがあります- (TPR:O、FPR:0)-モデルは、すべてのインスタンスが負のクラスであると予測します。 (TPR:l、FPR:I)-モデルは、すべてのインスタンスがポジティブクラスであると予測します。 (TPR: