Pythonのscikit-learnライブラリを使用してデータをスケーリングするにはどうすればよいですか？

特徴のスケーリングは、機械学習アルゴリズムを構築する際のデータ前処理段階の重要なステップです。特定の範囲内に収まるようにデータを正規化するのに役立ちます。

場合によっては、マシンによって計算が実行される速度を上げるのにも役立ちます。

なぜそれが必要なのですか？

入力として学習アルゴリズムに供給されるデータは、一貫性があり、構造化されている必要があります。値を効果的に予測するには、入力データのすべての機能を単一のスケールにする必要があります。しかし、現実の世界では、データは構造化されておらず、ほとんどの場合、同じ規模ではありません。

これは、正規化が思い浮かぶときです。これは、最も重要なデータ準備プロセスの1つです。これは、入力データセットの列の値を同じスケールに収まるように変更するのに役立ちます。

Scikit学習ライブラリを使用してPythonで機能スケーリングを実行する方法を理解しましょう。

例

import numpy as np
from sklearn import preprocessing
input_data = np.array(
[[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0,1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print ("\nThe scaled data is \n", data_scaled_minmax)

出力

The scaled data is
[[1.  1. 0.1394052 ]
[0.  0.75433767 0. ]
[0.33151326 0. 1. ]
[0.43681747 0.75375375 0.21437423]]

説明

必要なパッケージがインポートされます。
入力データは、Numpyライブラリを使用して生成されます。
クラス「前処理」にあるMinMaxScaler関数は、データを0から1の範囲に収まるようにスケーリングするために使用されます。
このようにして、配列内のすべてのデータが0〜1の値に縮小されます。
このスケーリングされたデータはコンソールに表示されます。

Pythonでscikit-learnライブラリを使用してL1正規化を実装する方法を説明してください。

Pythonのscikit-learnライブラリを使用して特徴ベクトルから平均値を削除するにはどうすればよいですか？

Seabornライブラリを使用してPythonでヒストグラムを表示するにはどうすればよいですか？
データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。定量的な洞察を聴衆に効果的に伝えるのに役立ちます。 Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 Pythonでヒストグラムを表示する例を見てみましょう- 例 import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('
Seabornライブラリを使用してPythonで散布図を表示するにはどうすればよいですか？
データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。 Seabornは、データの視覚化に役立つライブラリです。散布図は、グラフ上に分散/分散されたデータポイントとしてデータの分布を示します。ドットを使用して、データセットの値を表します。データセットは本質的に数値です。横軸と縦軸のすべてのドットの位置は、単一のデータポイントの値を示します。これらは、2つの変数間の関係を理解するのに役立ちます。 PythonでSeabornライブラリを使用してこれを実現する方法を理解しましょう- 例 impor