プログラミング
 Computer >> コンピューター >  >> プログラミング >> プログラミング

C5プルーニングアルゴリズムとは何ですか?


C5は、オーストラリアの研究者であるJ.RossQuinlanが数年にわたって開発および改良してきたデシジョンツリーアルゴリズムの現在のバージョンです。 1986年に設立された以前のバージョンであるID3は、機械学習の分野で影響力があり、その後継バージョンは複数の商用データマイニングサービスで使用されています。

C5によって増加するツリーは、CARTによって改善されるツリーと同じです。 CARTと同様に、C5アルゴリズムは最初に過剰適合ツリーを改善し、次にそれを剪定してより動的なモデルを作成します。剪定方法は複雑ですが、C5は、候補サブツリーから選択するための検証セットの使用を作成しません。

ツリーを増やすために使用される同様のデータは、ツリーを剪定する方法を決定するためにも使用されます。これは、以前は大学の研究者がトレーニングセットに使用するためにかなりの量の実際の記録を手に入れるのに複雑な時間を費やしていた、学術界におけるアルゴリズムの基礎を反映している可能性があります。したがって、彼らは貧弱なデータセットから最後の数滴のデータを誘導しようと多くの時間と労力を費やしました。これは、ビジネス界のデータマイニング担当者には見られない問題です。

C5は、各ノードでのエラー率を決定し、真のエラー率がかなり悪いことを考慮して、ツリーを整理します。 N個のレコードがノードに表示され、そのうちのEが正しく定義されていない場合、そのノードでのエラー率はE/Nです。

C5は、リーフで表示される可能性が高い最悪のエラーコストの見積もりを表示するために、統計的サンプリングとの類似性が必要です。類推は、葉の情報を一連の試行の結果を定義するものとして考えることによって機能し、それぞれが2つの実行可能な結果のうちの1つを持つことができます。

C5は、トレーニングレコードで観察されたエラーの数がこの範囲の下限であると見なし、上限を代用して、リーフの予測エラーコストである未確認のレコードのE/Nを取得します。ノードが低いほど、エラーコストは大きくなります。ノードでの複数のエラーのハイエンド推定値がその子のエラーの推定値よりも小さい場合、子はプルーニングされます。

モデルの主な目標は、以前の見えないデータに対して一貫した予測を作成することです。その目標を達成できないいくつかのルールは、モデルから削除する必要があります。一部のデータマイニングツールを使用すると、顧客は意思決定ツリーを手動で整理できます。

これは便利な機能ですが、オプションとして自動動的ベースのプルーニングをサポートするデータマイニングソフトウェアを期待できます。このようなアプリケーションでは、分割を拒否するための主観的な要素が「トレーニンググループの結果の分布とは異なる検証セットの結果ビューの分布」よりも少ない必要がありました。


  1. データウェアハウスの設計は何ですか?

    データウェアハウジングは、複数のソースから情報を収集および管理して、ビジネスに重要なビジネス洞察をサポートできるアプローチです。データウェアハウスは、サポート管理の意思決定を目的として特別に作成されています。 データウェアハウスは、会社の運用データベースとは別に維持されるデータベースを定義します。データウェアハウスシステムは、複数のアプリケーションシステムの統合を可能にします。分析用の統合された履歴レコードの強固なプラットフォームをサポートすることにより、データ処理をサポートします。 データウェアハウスは、リモートベースエリアで定義されたマテリアライズドビューのグループと見なすことができま

  2. ステガノグラフィの用途は何ですか?

    ステガノグラフィは、データを隠す技術であり、埋め込まれたデータの存在を隠すための取り組みです。これは、メッセージの存在ではなくメッセージの内容のみを非表示にする暗号化よりも優れたメッセージ保護方法として機能します。 元のメッセージはキャリア内で表示されていないため、キャリアに表示された変更は明らかではありません。ステガノグラフィにはさまざまな用途があります- ステガノグラフィは、検閲されることなく、またメッセージが妨げられて私たちにさかのぼることを恐れることなく、ニュースやデータを送信するために適用できるソリューションになる可能性があります。 ステガノグラフィを使用して場所にデー