Pythonのscikit-learnライブラリを使用してデータをスケーリングするにはどうすればよいですか?
特徴のスケーリングは、機械学習アルゴリズムを構築する際のデータ前処理段階の重要なステップです。特定の範囲内に収まるようにデータを正規化するのに役立ちます。
場合によっては、マシンによって計算が実行される速度を上げるのにも役立ちます。
なぜそれが必要なのですか?
入力として学習アルゴリズムに供給されるデータは、一貫性があり、構造化されている必要があります。値を効果的に予測するには、入力データのすべての機能を単一のスケールにする必要があります。しかし、現実の世界では、データは構造化されておらず、ほとんどの場合、同じ規模ではありません。
これは、正規化が思い浮かぶときです。これは、最も重要なデータ準備プロセスの1つです。これは、入力データセットの列の値を同じスケールに収まるように変更するのに役立ちます。
Scikit学習ライブラリを使用してPythonで機能スケーリングを実行する方法を理解しましょう。
例
import numpy as np from sklearn import preprocessing input_data = np.array( [[34.78, 31.9, -65.5], [-16.5, 2.45, -83.5], [0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1)) data_scaled_minmax = data_scaler_minmax.fit_transform(input_data) print ("\nThe scaled data is \n", data_scaled_minmax)
出力
The scaled data is [[1. 1. 0.1394052 ] [0. 0.75433767 0. ] [0.33151326 0. 1. ] [0.43681747 0.75375375 0.21437423]]
説明
-
必要なパッケージがインポートされます。
-
入力データは、Numpyライブラリを使用して生成されます。
-
クラス「前処理」にあるMinMaxScaler関数は、データを0から1の範囲に収まるようにスケーリングするために使用されます。
-
このようにして、配列内のすべてのデータが0〜1の値に縮小されます。
-
このスケーリングされたデータはコンソールに表示されます。
-
Seabornライブラリを使用してPythonでヒストグラムを表示するにはどうすればよいですか?
データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。定量的な洞察を聴衆に効果的に伝えるのに役立ちます。 Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 Pythonでヒストグラムを表示する例を見てみましょう- 例 import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('
-
Seabornライブラリを使用してPythonで散布図を表示するにはどうすればよいですか?
データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。 Seabornは、データの視覚化に役立つライブラリです。 散布図は、グラフ上に分散/分散されたデータポイントとしてデータの分布を示します。ドットを使用して、データセットの値を表します。データセットは本質的に数値です。横軸と縦軸のすべてのドットの位置は、単一のデータポイントの値を示します。 これらは、2つの変数間の関係を理解するのに役立ちます。 PythonでSeabornライブラリを使用してこれを実現する方法を理解しましょう- 例 impor