Python
 Computer >> コンピューター >  >> プログラミング >> Python

scikit-learnライブラリを使用して、Pythonでのトレーニングとテストの目的でデータセットを分割する方法を説明してください。


Scikit-learnは、一般にsklearnとして知られ、機械学習アルゴリズムを実装する目的で使用されるPythonのライブラリです。統計モデリングを実行するためのさまざまなツールを提供するため、強力で堅牢です。

これには、Pythonの強力で安定したインターフェースの助けを借りて、分類、回帰、クラスタリング、次元削減などが含まれます。 Numpy、SciPy、Matplotlibライブラリに基づいて構築されています。

入力データを機械学習アルゴリズムに渡す前に、トレーニングデータセットとテストデータセットに分割する必要があります。

データが選択したモデルに適合すると、入力データセットはこのモデルでトレーニングされます。トレーニングが行われると、モデルはデータから学習します。

また、新しいデータを一般化することも学びます。モデルのトレーニング中は、テストデータセットは使用されません。

すべてのハイパーパラメータが調整され、最適な重みが設定されると、テストデータセットが機械学習アルゴリズムに提供されます。

これは、アルゴリズムが新しいデータにどの程度一般化されているかを確認するために使用されるデータセットです。 scikit-learnライブラリを使用してデータを分割する方法を見てみましょう。

from sklearn.datasets import load_iris
my_data = load_iris()
X = my_data.data
y = my_data.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
X, y, test_size = 0.2, random_state = 2
)
print("The dimensions of the features of training data ")
print(X_train.shape)
print("The dimensions of the features of test data ")
print(X_test.shape)
print("The dimensions of the target values of training data ")
print(y_train.shape)
print("The dimensions of the target values of test data ")
print(y_test.shape)

出力

The dimensions of the features of training data
(120, 4)
The dimensions of the features of test data
(30, 4)
The dimensions of the target values of training data
(120,)
The dimensions of the target values of test data
(30,)

説明

  • 必要なパッケージがインポートされます。
  • これに必要なデータセットも環境に読み込まれます。
  • 機能とターゲット値はデータセットから分離されています。
  • トレーニングデータとテストデータは、それぞれ80%と20%の比率で分割されます。
  • これは、データの20%が、モデルが新しいデータでどの程度一般化されているかを確認するために使用されることを意味します。
  • これらの分割は、データのディメンションとともにコンソールに印刷されます。

  1. countplotを使用してPythonSeabornLibraryのデータを視覚化するにはどうすればよいですか?

    Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 以前のプロットでは、データセット全体をグラフにプロットしました。バープロットの助けを借りて、データの分布の中心傾向を理解することができます。 棒グラフ関数は、カテゴリ変数と連続変数の間の関係を確立します。データは長方形のバーの形式で表され、バーの長さはその特定のカテゴリのデータの割合を示します。 棒グラフの特殊なケースは、2番目の変数の統計値を計算する代わりに、データに関してすべてのカテゴリの観測数を表示するカウントプロットです。 「タイタニック」データセット

  2. scikit-learnライブラリを使用してPythonで画像の解像度を取得するにはどうすればよいですか?

    データの前処理とは、基本的に、すべてのデータ(さまざまなリソースまたは単一のリソースから収集される)を共通の形式または統一されたデータセット(データの種類に応じて)に収集するタスクを指します。実際のデータは決して理想的ではないため、データにセルの欠落、エラー、外れ値、列の不一致などが含まれる可能性があります。場合によっては、画像が正しく配置されていないか、鮮明でないか、サイズが非常に大きいことがあります。前処理の目標は、これらの不一致やエラーを取り除くことです。 画像の解像度を取得するには、「shape」という名前の組み込み関数を使用します。画像が読み取られた後、ピクセル値は配列の形式で保存