プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

デシジョンツリー誘導の特徴は何ですか?


デシジョンツリーの誘導にはさまざまな特徴があります-

決定木誘導は、分類モデルを構築するためのノンパラメトリック手法です。言い換えると、クラスが満たす確率分布のタイプとさまざまな属性に関する以前の仮定は必要ありません。

最適な決定木を見つけることは、NP完全問題である可能性があります。多くのデシジョンツリーアルゴリズムは、ヒューリスティックベースのアプローチを採用して、広大な仮説空間での検索をガイドします。

計算コストの低い決定木を構築するために開発されたさまざまな手法があり、トレーニングセットのサイズが非常に大きい場合でもモデルを迅速に構築できます。さらに、決定木が開発されているため、テストデータの定義は完全に高速であり、最悪の場合の複雑さはO(w)です。ここで、wはツリーの最大深度です。

決定木、特に小さいサイズのツリーは、連想的に実行が簡単です。ツリーの効率も、いくつかのデータセットのいくつかの分類方法に匹敵します。

決定木は、離散値関数を学習するための表現力豊かな記述をサポートします。しかし、それらはブール問題の特定の方法にうまく一般化されていません。インスタンスはパリティ関数であり、値がTrueのブール属性が奇数(偶数)ある場合は値が0(1)になります。

冗長な属性の存在は、決定木の有効性に影響を与えません。属性がデータ内の別の属性と強力に相関している場合、その属性は冗長です。もう一方の属性が選択されているため、2つの冗長属性を分割に使用することはできません。

ただし、データセットにいくつかの無関係な属性、つまり分類サービスに有益でない属性が含まれている場合、ツリーの成長プロセス中にいくつかの無関係な属性が誤って選択され、必要以上に大きな決定木が生じる可能性があります。特徴選択手法は、前処理中に無関係な属性を排除することにより、決定木の精度を向上させるのに役立ちます。

いくつかのデシジョンツリーアルゴリズムはトップダウンの再帰的パーティショニング方法を使用するため、ツリーをトラバースできるため、複数のデータは小さくなります。リーフノードでは、いくつかのデータが小さすぎて、ノードのクラス記述について統計的に有意な決定を作成できない場合があります。これは、データの断片化の問題と呼ばれます。考えられる解決策の1つは、複数のデータが特定のしきい値を下回ったときに、それ以上の分割を許可しないことです。

サブツリーは、デシジョンツリーで数回繰り返すことができます。これにより、決定木が必要以上に難しくなり、実行がより複雑になる可能性があります。すべての内部ノードでの単一の属性テスト条件に依存するデシジョンツリーの実行から、さまざまな状況が増える可能性があります。

一部のデシジョンツリーアルゴリズムでは、分割統治法のパーティショニングアプローチが必要です。同様のテスト条件を属性スペースの複数の部分に使用できるため、サブツリーレプリケーションの問題が発生しやすくなります。


  1. C#のコメントは何ですか?

    コメントはコードの説明に使用されます。コンパイラはコメントエントリを無視します。 C#プログラムの複数行コメントは、以下に示すように/ *で始まり、文字*/で終わります。 複数行のコメント /* The following is a mult-line comment In C# /* /*...*/はコンパイラによって無視され、プログラムにコメントを追加するために配置されます。 1行のコメント // variable int a = 10; 以下は、単一行コメントと複数行コメントを追加する方法を示すサンプルC#プログラムです- 例 using System; namespace Dem

  2. Java 9のモジュールの特徴は何ですか?

    モジュール コード、データ、およびリソースのコレクションです。これは、クラスのような関連するパッケージとタイプのセットです。 、要約 クラス 、およびインターフェース コード、データファイル、およびいくつかの静的リソースを使用します。 以下は、モジュールの特徴の一部です。 モジュールの特徴: モジュールはインターフェースを定義する必要があります 他のモジュールとの通信用。 モジュールは、モジュール間の分離を定義します インターフェース およびモジュール 実装 。 モジュールは、情報を含む一連のプロパティを提示します。 2つ以上のモジュールがネストされています 一緒に。 モジュールにはクリア