プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

サンプリングベースのアプローチとは何ですか?


サンプリングは、クラスの不均衡の問題を処理するために広く使用されている方法です。サンプリングの概念は、まれなクラスがトレーニングセットで明確に定義されるように、例の分布を変更することです。アンダーサンプリング、オーバーサンプリング、および両方のアプローチのハイブリッドなど、サンプリングにはさまざまな手法があります。たとえば、100個の肯定的な例と1000個の否定的な例を含むデータセットについて考えてみます。

アンダーサンプリングの方法では、100個のネガティブな例のランダムなサンプルが選択され、すべてのポジティブな例で事前にトレーニングセットが形成されます。この方法の問題の1つは、有用なネガティブな例のいくつかをトレーニングに選択できないため、最適なモデルとは言えないことです。

この問題を克服する方法は、アンダーサンプリングを複数回実装し、アンサンブルIearningアプローチと同じ複数の分類器を誘導することです。焦点を絞ったアンダーサンプリング方法を使用できます。この場合、サンプリングプロセスにより、決定境界から遠く離れた場所など、削除する必要のある否定的な例に関する情報に基づいた選択が行われます。

オーバーサンプリングは、トレーニングセットに同じ数の正と負の例が含まれるまで、正の例を反映します。決定木を含む分類器を使用した決定境界の開発に対するオーバーサンプリングの影響。ポジティブな例は、ポジティブなインスタンスとネガティブなインスタンスを独立させるための新しい決定境界の形成を検証するための適切な例がないため、誤分類されています。

ただし、ノイズの多い情報の場合、いくつかのノイズの例を複数回複製できるため、オーバーサンプリングによってモデルの過剰適合が発生する可能性があります。オーバーサンプリングは、トレーニングセットにいくつかの新しいデータを挿入しません。肯定的な例の複製は、学習アルゴリズムが、いくつかのトレーニング例(つまり、小さな分離)を含む領域を定義するモデルの特定の部分を剪定することを回避します。より肯定的な例は、モデル構築の計算時間の向上にも影響します。

ハイブリッドメソッドでは、均一なクラス分布を実装するために、マジョリティクラスをアンダーサンプリングし、レアクラスをオーバーサンプリングするセットが必要です。アンダーサンプリングは、ランダムまたはフォーカスされたサブサンプリングを使用して実装できます。オーバーサンプリングは、現在のポジティブな例を複製するか、現在のポジティブな例の近くに新しいポジティブな例を作成することで実行できます。


  1. C#のインデクサーとは何ですか?

    インデクサーを使用すると、配列などのオブジェクトにインデックスを付けることができます。 構文を見てみましょう- element-type this[int index] {    // The get accessor.    get {       // return the value specified by index    }    // The set accessor.    set {       // set the

  2. C#の名前空間とは何ですか?

    名前空間は、ある名前のセットを別の名前のセットから分離する方法を提供するためのものです。名前空間の定義は、次のように、キーワードnamespaceで始まり、その後に名前空間名が続きます- namespace namespace_name {    // code declarations } 名前空間を定義する- namespace namespace_name {    // code declarations } 以下は、C#で名前空間を使用する方法を示す例です- 例 using System; namespace first_space {