Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonのscikit-learnライブラリを使用してデータをスケーリングするにはどうすればよいですか?


特徴のスケーリングは、機械学習アルゴリズムを構築する際のデータ前処理段階の重要なステップです。特定の範囲内に収まるようにデータを正規化するのに役立ちます。

場合によっては、マシンによって計算が実行される速度を上げるのにも役立ちます。

なぜそれが必要なのですか?

入力として学習アルゴリズムに供給されるデータは、一貫性があり、構造化されている必要があります。値を効果的に予測するには、入力データのすべての機能を単一のスケールにする必要があります。しかし、現実の世界では、データは構造化されておらず、ほとんどの場合、同じ規模ではありません。

これは、正規化が思い浮かぶときです。これは、最も重要なデータ準備プロセスの1つです。これは、入力データセットの列の値を同じスケールに収まるように変更するのに役立ちます。

Scikit学習ライブラリを使用してPythonで機能スケーリングを実行する方法を理解しましょう。

import numpy as np
from sklearn import preprocessing
input_data = np.array(
[[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nThe scaled data is \n", data_scaled_minmax)

出力

The scaled data is
[[1.  1. 0.1394052 ]
[0.  0.75433767 0. ]
[0.33151326 0. 1. ]
[0.43681747 0.75375375 0.21437423]]

説明

  • 必要なパッケージがインポートされます。

  • 入力データは、Numpyライブラリを使用して生成されます。

  • クラス「前処理」にあるMinMaxScaler関数は、データを0から1の範囲に収まるようにスケーリングするために使用されます。

  • このようにして、配列内のすべてのデータが0〜1の値に縮小されます。

  • このスケーリングされたデータはコンソールに表示されます。


  1. Seabornライブラリを使用してPythonでヒストグラムを表示するにはどうすればよいですか?

    データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。定量的な洞察を聴衆に効果的に伝えるのに役立ちます。 Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 Pythonでヒストグラムを表示する例を見てみましょう- 例 import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('

  2. Seabornライブラリを使用してPythonで散布図を表示するにはどうすればよいですか?

    データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。 Seabornは、データの視覚化に役立つライブラリです。 散布図は、グラフ上に分散/分散されたデータポイントとしてデータの分布を示します。ドットを使用して、データセットの値を表します。データセットは本質的に数値です。横軸と縦軸のすべてのドットの位置は、単一のデータポイントの値を示します。 これらは、2つの変数間の関係を理解するのに役立ちます。 PythonでSeabornライブラリを使用してこれを実現する方法を理解しましょう- 例 impor