プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

インタラクティブな意思決定ツリーの構築をサポートするために、データをどのように視覚化できますか?


知覚ベースの分類(PBC)は、多次元の視覚化手法に基づくインタラクティブな手法であり、ユーザーが意思決定ツリーを構築するときにデータに関する背景知識を組み込むことができます。

データと光学的に相互作用することにより、ユーザーはデータのより深い学習を生み出す可能性があります。結果として得られるツリーは、従来の決定木誘導手法を利用した構造よりも小さい可能性が高いため、ほぼ同様の精度を達成しながら、解釈が簡単になります。

PBCは、クラスラベルデータで多次元データを考慮するためにピクセル指向の方法を必要とします。円セグメント法が採用されており、d次元の情報オブジェクトを、それぞれが1つの属性を定義するdセグメントに分割された円にマッピングします。

データ要素の属性値は、オブジェクトのクラスラベルを内省して、1つの色付きピクセルにマップされます。このマッピングは、すべてのデータオブジェクトのすべての属性と値のペアに対して完了します。セグメント内の配置シリーズを決定するために、属性ごとに並べ替えが完了します。

たとえば、特定のセグメント内の属性値は、類似した属性値内の同種の(クラスラベルに関する)領域を示すように編成できます。一度に予測できるトレーニング情報の量は、複数の属性と複数のデータオブジェクトの積によっておおよそ決まります。

PBCシステムは、データインタラクションウィンドウとナレッジインタラクションウィンドウを含む分割画面を表示します。データインタラクションウィンドウには、チェック中のデータの円セグメントが表示され、ナレッジインタラクションウィンドウには、これまでに作成された決定木が表示されます。トレーニングセット全体がデータインタラクションウィンドウに視覚化され、ナレッジインタラクションウィンドウにはヌルの決定木が表示されます。

従来のデシジョンツリーアルゴリズムでは、統計属性のバイナリ分割のみが可能です。 PBCを使用すると、ユーザーは複数の分割点を定義できるため、個々のツリーノードから複数のブランチを成長させることができます。

ツリーは、次のようにインタラクティブに構築されます。ユーザーは、データの相互作用ウィンドウで多次元データを予測し、分割属性と複数の分割点を選択します。ナレッジインタラクションウィンドウの最新の意思決定ツリーが展開されます。

ユーザーは決定木のノードを選択します。ユーザーは、ノードにクラスラベルを作成するか(ノードをリーフに作成します)、ノードに相当するトレーニング情報の視覚化を要求できます。これにより、ルートから同様のパスで要素を分割するために使用される属性を除いて、各属性の新しい視覚化が行われます。対話型の手順は、決定木のすべてのリーフにクラスが作成されるまで続きます。


  1. countplotを使用してPythonSeabornLibraryのデータを視覚化するにはどうすればよいですか?

    Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 以前のプロットでは、データセット全体をグラフにプロットしました。バープロットの助けを借りて、データの分布の中心傾向を理解することができます。 棒グラフ関数は、カテゴリ変数と連続変数の間の関係を確立します。データは長方形のバーの形式で表され、バーの長さはその特定のカテゴリのデータの割合を示します。 棒グラフの特殊なケースは、2番目の変数の統計値を計算する代わりに、データに関してすべてのカテゴリの観測数を表示するカウントプロットです。 「タイタニック」データセット

  2. データをバックアップするにはどうすればよいですか?

    今日の IT の世界では、包括的なバックアップ戦略を持つことが不可欠です。データが失われる方法は非常に多いため、不快な状況に直面しないためには、データを正常にバックアップする方法を理解することが重要です。では、どのようにデータをバックアップできますか? データ損失 サイバー攻撃、不正な従業員、自然災害、メディアの損傷、および人的エラーは、データを失う可能性があるいくつかの方法にすぎません.データを失うことは、個人にとっては迷惑で悲痛なことかもしれませんが、組織にとっては、その影響は取り返しのつかないものになる可能性があります. Consoltech のこれらの恐ろしい数字のいくつかを以下で見