プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

属性選択尺度とは何ですか?


属性選択尺度は、クラスラベル付きトレーニングタプルの特定のデータパーティションDを単一のクラスに「最適に」分離する分割テストを選択するためのヒューリスティックです。

分割基準の結果に従ってDをより小さなパーティションに分割できる場合、理想的にはすべてのパーティションが純粋である可能性があります(つまり、特定のパーティションに分類される一部のタプルは同じクラスに属することができます)。

概念的には、「最良の」分割基準は、そのような方法で最もおおよその結果です。属性選択メジャーは、特定のノードのタプルをどのように分割するかを決定するため、分割ルールと呼ばれます。

属性選択メジャーは、特定のトレーニングタプルを定義するすべての属性のランク付けをサポートします。メジャーに最適なメソッドを持つ属性が、指定されたタプルの分割属性として選択されます。

分割属性が定数値である場合、またはバイナリツリーに制限されている場合は、それに応じて、分割ポイントまたは分割サブセットのいずれかを分割基準の要素として決定する必要があります。

パーティションDに対して生成されたツリーノードには分割基準のラベルが付けられ、基準の結果ごとに分岐が増加し、それに応じてタプルが分離されます。情報ゲイン、ゲイン比、ジニ係数など、3つの有名な属性選択尺度があります。

情報の獲得 −情報ゲインは、クラスに関する最大のデータをレンダリングする最適な機能/属性を決定するために使用されます。ルートノードからリーフノードに至るまで、エントロピーのレベルを下げることを目的として、エントロピーの方法に従います。

ノードNがパーティションDのタプルを定義または保持するようにします。情報ゲインが最大の属性が、ノードNの分割属性として選択されます。この属性は、結果のサブディバイドでタプルを定義するために必要なデータを最小化し、最小のランダム性または「これらの細分化における不純物」。

利益率 −情報ゲインの測定値は、いくつかの結果を伴うテストに近づくように偏っています。値の数が多い属性を選択できます。たとえば、製品IDなどの一意の識別子として容易になる属性について考えてみます。

製品IDを分割すると、多数のパーティションが作成される可能性があり、各パーティションには1つのタプルのみが含まれます。各パーティションは本物であるため、このパーティションに基づいてデータセットDを定義するために必要なデータは、Info product_IDになります。 (D)=0。

ジニ係数 −ジニ係数はCARTで使用できます。ジニ係数は、データパーティションまたはトレーニングタプルのコレクションであるDの不純物を次のように計算します

$$ \ mathrm {Gini(D)=1- \ displaystyle \ sum \ Limits_ {i =1} ^ m p_i ^ 2} $$

ここで、p i DのタプルがクラスCiに属する確率です。 | C iによって計算されます 、 D | / |D|。


  1. C#の属性は何ですか?

    属性は、プログラム内のクラス、メソッド、構造、列挙子、アセンブリなどのさまざまな要素の動作に関する情報をランタイムに伝達するために使用される宣言型タグです。 構文は次のとおりです。 [attribute(positional_parameters, name_parameter = value, ...)] Element ここで 属性の名前とその値は、属性が適用される要素の前の角括弧内に指定されます。 位置パラメータは重要な情報を指定し、名前パラメータはオプション情報を指定します。 以下は、C#で事前定義された属性です。 AttributeUsage 事前定義された属性A

  2. C#で事前定義された属性とは何ですか?

    以下は、C#で事前定義された属性です- AttributeUsage 条件付き 廃止 AttributeUsage 事前定義された属性AttributeUsageは、カスタム属性クラスの使用方法を記述します。構文は次のとおりです- [AttributeUsage (    validon,    AllowMultiple = allowmultiple,    Inherited = inherited )] 条件付き この事前定義された属性は、実行が指定された前処理識別子に依存する条件付きメソッドをマークします。