プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

元の属性の適切なサブセットをどのように見つけることができますか?


属性サブセットの選択により、無関係または冗長な属性(またはディメンション)が削除され、データセットのサイズが削減されます。属性サブセットの選択の目的は、データクラスの後続の確率分布が、すべての属性を使用して取得された元の分布に可能な限り近くなるように、属性の最小セットを検出することです。

n個の属性の場合、2n個の可能なサブセットがあります。属性の最適なサブセットを徹底的に検索すると、特にnとデータクラスの数が増えるため、非常にコストがかかる可能性があります。したがって、属性サブセットの選択には、通常、検索スペースの削減を検討するヒューリスティックアプローチが使用されます。

これらのアプローチは、属性スペースを検索している間、その時点でどのビューが適切であるかを継続的に判断するという点で、しばしば貪欲です。彼らの方法は、これが世界的に最適な解決策につながることを期待して、局所的に最適な選択肢を開発することです。このような欲張り法は実際には効率的であり、最適解の計算に近づく可能性があります。

「最良」および「最悪」の属性は、通常、統計的有意性の検定を使用して決定されます。この検定では、属性が互いに分離していると見なされます。分類のための決定木を構築する際に使用される情報獲得尺度を含む、いくつかの異なる属性評価尺度を使用できます。

属性サブセット選択の基本的なヒューリスティックな方法には、次のような次の手法が含まれます-

段階的順方向選択 −プロセスは、減少したセットとしての属性のnullセットから始まります。初期属性の最良のものが決定され、減少したセットに挿入されます。後続の反復またはステップごとに、残りの初期属性がセットに挿入されます。

段階的な後方排除 −プロセスは、属性の完全なセットから始まります。各フェーズで、セットに残っている最悪の属性を排除します。

転送選択と後方削除の組み合わせ −段階的な順方向選択と逆方向除去の手法を組み合わせて、各フェーズでプロセスが最良の属性を選択し、残りの属性の中から最悪の属性を除去することができます。

デシジョンツリーの誘導 − ID3、C4.5、およびCARTを含む決定木アルゴリズムは、当初、分類用に設計されました。デシジョンツリー誘導は、フローチャートのような構造を構築します。各内部(非リーフ)ノードは属性のテストを示し、各ブランチはテストの結果に対応し、各外部(リーフ)ノードはクラス予測を示します。各ノードで、アルゴリズムは「最良の」属性を選択して、情報を単一のクラスに分割します。

属性サブセットの選択に決定木誘導を利用する場合、与えられた情報からツリーが構築されます。ツリーに存在しないすべての属性は、無関係であると見なされます。ツリーで発生する属性のグループは、属性の減少したサブセットを形成します。


  1. Windows 11 PC で IP アドレスを見つける方法

    インターネット接続に問題がありますか?さまざまなソリューションを試しているときに、コンピューターの IP アドレスを知っていると便利です。 初心者向けに説明すると、IP アドレス (インターネット プロトコル アドレスの略) は、インターネット上でデバイスを識別する一意の数値アドレスです。機械の郵便番号と考えることができます。郵便番号が現実世界の住所を定義するのと同じように、IP アドレスはマシンのアドレスを定義し、相互の検索に役立ちます。 Windows 11 で IP アドレスを見つける方法は複数あります。まず、コマンド プロンプトを使用するなど、最も単純な方法から始めましょう。 1.

  2. Windows 10 でリモート デスクトップがコンピューターを検出できない問題を修正する方法

    リモートデスクトップでコンピュータが見つからない?同じネットワークに接続されている他の PC との接続を確立できませんか?あなたは正しい場所に来ました。この問題は、いくつかの回避策に従うことで簡単に修正できます。 Windows リモート デスクトップは、同じネットワーク上にある他の PC やシステムにリモートで接続できる最も便利なアプリの 1 つです。ただし、リモート デスクトップ ユーティリティの使用中に他の PC が見つからない場合は、この問題を解決するのに役立つトラブルシューティングのヒントをいくつか紹介します。 Windows 10 でリモート デスクトップがコンピューターを検