Python
 Computer >> コンピューター >  >> プログラミング >> Python

決定木を使用してPythonでリグレッサを実装するにはどうすればよいですか?


デシジョンツリーは、ランダムフォレストアルゴリズムの基本的な構成要素です。これは、機械学習で最も一般的なアルゴリズムの1つと見なされており、分類の目的で使用されます。決定木によって与えられた決定は、特定の予測が行われた理由を説明するために使用できます。これは、プロセスの内外がユーザーにとって明確であることを意味します。それらはCART、つまり分類および回帰ツリーとしても知られています。二分木(データ構造とアルゴリズムで研究されたもの)として視覚化できます。

ツリー内のすべてのノードは単一の入力変数を表し、リーフノード(ターミナルノードとも呼ばれます)には出力変数が含まれています。これらのリーフノードは、ノードの予測を行うために使用されます。デシジョンツリーが作成されるときの基本的な考え方は、指定されたスペースが複数のセクションに分割されることです。より少ないコストと最良の予測値を達成するために、すべての値が設定され、さまざまな分割が試行されます。これらの値は貪欲な方法で選択されます。

これらのノードの分割は、ツリーの最大深度に達するまで続きます。デシジョンツリーの使用の背後にある考え方は、すべてのターゲット変数が1つのカテゴリに分類されるまで、特定の特徴値に基づいて入力データセットをより小さなデータセットに分割することです。この分割は、すべてのステップで最大の情報ゲインを取得するために行われます。

すべての決定木はルートで始まり、これが最初の分割が行われる場所です。ノードが確実に定義されるように、効率的な方法を考案する必要があります。

ここでジニ値が浮かび上がります。ジニは、不平等を測定するために最も一般的に使用される測定の1つと見なされています。不等式とは、ノード内のすべてのサブセットが属する可能性のあるターゲットクラス(出力)を指します。

以下の構文は、DecisionTreeRegressor-

を使用するときに使用されます。
class sklearn.tree.DecisionTreeRegressor (*, criterion=’mse’,…

DecisionTreeRegressorの使用方法を理解しましょう-

from sklearn import tree
my_data = [[1, 1], [5, 5], [2,3], [7,11]]
target_vals = [0.1, 1.5, 0.75, 1.73]
clf = tree.DecisionTreeRegressor()
print("The decision tree regressor has been called")
DTreg = clf.fit(my_data, target_vals)
print("Data has been fit")
pred_val = DTreg.predict([[4, 7]])
print("The predicted data is ")
print(pred_val)

出力

The decision tree regressor has been called
Data has been fit
The predicted data is
[1.5]

説明

  • 必要なパッケージが環境にインポートされます。
  • 特徴ベクトルとターゲット値が定義されています。
  • DecisionTreeRegressorが呼び出され、データがモデルに適合します。
  • 「予測」機能は、特徴値の値を予測するために使用されます。
  • 出力はコンソールに表示されます。

  1. PythonでBokehを使用して正弦波を生成するにはどうすればよいですか?

    Bokehは、データの視覚化に役立つPythonパッケージです。これはオープンソースプロジェクトです。 Bokehは、HTMLとJavaScriptを使用してプロットをレンダリングします。これは、Webベースのダッシュボードでの作業中に役立つことを示しています。 データを視覚化することは、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているかを理解するのに役立つため、重要なステップです。 Bokehは、NumPy、Pandas、およびその他のPythonパッケージと組み合わせて簡単に使用できます。インタラクティブなプロットやダッシュボードなどを作成するために使用

  2. matplotlibを使用してPythonを使用してヒストグラムを作成するにはどうすればよいですか?

    Matplotlibは、データの視覚化に使用される人気のあるPythonパッケージです。 データを視覚化することは、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。 定量的な洞察を聴衆に効果的に伝えるのに役立ちます。 Matplotlibは、データを使用して2次元プロットを作成するために使用されます。 Pythonアプリケーションにプロットを埋め込むのに役立つオブジェクト指向APIが付属しています。 Matplotlibは、IPythonシェル、Jupyterノートブック、SpyderIDEなどで使用できま