Python
 Computer >> コンピューター >  >> プログラミング >> Python

scikitlearnライブラリを使用してPythonでデータを前処理するにはどうすればよいですか?


データの前処理とは、データのクリーンアップ、無効なデータの削除、ノイズ、データを関連する値に置き換えることなどを指します。

これは必ずしもテキストデータを意味するわけではありません。また、画像やビデオ処理の場合もあります。これは、機械学習パイプラインの重要なステップです。

データの前処理とは、基本的に、すべてのデータ(さまざまなリソースまたは単一のリソースから収集される)を共通の形式または統一されたデータセット(データの種類に応じて)に収集するタスクを指します。

これは、学習アルゴリズムがこのデータセットから学習し、関連する結果を高精度で提供できるようにするために行われます。実際のデータは決して理想的ではないため、データにセルの欠落、エラー、外れ値、列の不一致などが含まれる可能性があります。

場合によっては、画像が正しく配置されていないか、鮮明でないか、サイズが非常に大きいことがあります。前処理の目的は、これらの不一致やエラーを取り除くことです。データの前処理は単一のタスクではなく、段階的に実行される一連のタスクです。

あるステップの出力が次のステップへの入力になります。

数値をブール値に変換する例を見てみましょう-

import numpy as np
from sklearn import preprocessing
input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data)
print("\Values converted from numeric to Boolean :\n", data_binarized)

出力

Values converted from numeric to Boolean :
[[1. 1. 0.]
[0. 1. 0.]
[0. 0. 1.]
[1. 1. 0.]]

説明

  • 必要なパッケージがインポートされます。
  • 入力データはNumpyライブラリを使用して生成されます。
  • sklearnの「前処理」クラスにある「Binarizer」関数は、数値をブール値に変換するために使用されます。
  • ブール値は基本的に1と0のみを参照します。
  • この変換されたデータはコンソールに出力されます。

  1. Seabornライブラリを使用してPythonでヒストグラムを表示するにはどうすればよいですか?

    データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。定量的な洞察を聴衆に効果的に伝えるのに役立ちます。 Seabornは、データの視覚化に役立つライブラリです。カスタマイズされたテーマと高レベルのインターフェースが付属しています。 Pythonでヒストグラムを表示する例を見てみましょう- 例 import pandas as pd import seaborn as sb from matplotlib import pyplot as plt df = sb.load_dataset('

  2. Seabornライブラリを使用してPythonで散布図を表示するにはどうすればよいですか?

    データの視覚化は、実際に数値を調べたり複雑な計算を実行したりすることなく、データで何が起こっているのかを理解するのに役立つため、重要なステップです。 Seabornは、データの視覚化に役立つライブラリです。 散布図は、グラフ上に分散/分散されたデータポイントとしてデータの分布を示します。ドットを使用して、データセットの値を表します。データセットは本質的に数値です。横軸と縦軸のすべてのドットの位置は、単一のデータポイントの値を示します。 これらは、2つの変数間の関係を理解するのに役立ちます。 PythonでSeabornライブラリを使用してこれを実現する方法を理解しましょう- 例 impor