プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

教師なし離散化のアプローチは何ですか?


可能な値の数が連想的に少ない(有限の)場合、属性は離散的ですが、連続属性は可能な値の数が非常に多い(無限)ように扱われます。

言い換えると、離散データ属性は、範囲が有限群である関数と見なすことができますが、連続データ属性は、範囲が無限の完全順序群、通常は区間である関数です。

離散化は、連続属性が取る可能性のある値の数を、それらをいくつかの間隔に分割することによって減らすことを目的としています。離散化の問題には2つの方法があります。 1つは、トレーニングクラスのインスタンスのクラスに関する知識がない場合に、すべての属性を量子化することです。いわゆる教師なし離散化です。

2つ目は、監視対象の離散化を離散化するときに考慮に入れるクラスを作成することです。前者は、クラスが不明または存在しないクラスタリングの問題を処理する場合の唯一の可能性です。

数値属性を離散化する明白な方法は、その範囲を所定の数の等間隔に分割することです。これは、データに依存しない固定のヤードスティックです。これは通常、情報が収集されたときに完了します。

教師なし離散化法では、失礼すぎるグラデーションを使用することによって、または境界の逆のオプションによって、複数のクラスのいくつかのインスタンスを不必要にまとめることによって、学習手順で有益であることが判明した区別を台無しにする危険があります。 。

等幅ビニングは、インスタンスを非常に不規則に分散することがよくあります −一部のビンには複数のインスタンスが含まれますが、他のビンには含まれません。これは、適切な意思決定構造を構築するのに役立つ属性の機能を著しく損なう可能性があります。間隔を複数のサイズにして、同じ数のトレーニング例がそれぞれに分類されるように選択することをお勧めします。

この方法は等頻度ビニングと呼ばれ、その軸に沿ったインスタンスの分布に基づいて、属性の範囲を事前に決定されたいくつかのビンに分割します。これは、結果のビンのテキストのヒストグラムを取得できる場合、頻繁に発生するためです。フラット。複数のビンをリソースとして認識できる場合、このメソッドはそれを最大限に活用します。

等頻度のビニングはインスタンスのクラスに明らかであり、これは悪い境界を生成する可能性があります。たとえば、ビン内の一部のインスタンスに1つのクラスがあり、次の大きなビン内の一部のインスタンスに、最初のクラスを持つ最初のインスタンスを除いて別のインスタンスがある場合、クラスの分割を尊重し、その最初のインスタンスを以前のビン、均一性の利益のために同じ周波数のプロパティを犠牲にします。


  1. C#の属性は何ですか?

    属性は、プログラム内のクラス、メソッド、構造、列挙子、アセンブリなどのさまざまな要素の動作に関する情報をランタイムに伝達するために使用される宣言型タグです。 構文は次のとおりです。 [attribute(positional_parameters, name_parameter = value, ...)] Element ここで 属性の名前とその値は、属性が適用される要素の前の角括弧内に指定されます。 位置パラメータは重要な情報を指定し、名前パラメータはオプション情報を指定します。 以下は、C#で事前定義された属性です。 AttributeUsage 事前定義された属性A

  2. C#のコメントは何ですか?

    コメントはコードの説明に使用されます。コンパイラはコメントエントリを無視します。 C#プログラムの複数行コメントは、以下に示すように/ *で始まり、文字*/で終わります。 複数行のコメント /* The following is a mult-line comment In C# /* /*...*/はコンパイラによって無視され、プログラムにコメントを追加するために配置されます。 1行のコメント // variable int a = 10; 以下は、単一行コメントと複数行コメントを追加する方法を示すサンプルC#プログラムです- 例 using System; namespace Dem