Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonでの探索的データ分析


データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます-

  • データセットへの洞察を与えるため。

  • 基礎となる構造を理解します。

  • 重要なパラメータとそれらの間にある関係を抽出します。

  • 基礎となる仮定をテストします。

サンプルデータセットを使用したEDAの理解

Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデータを取得し、EDAを使用してデータセットについて多くの洞察を得ようとしています。

パンダをpddf=pd.read_csv( "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv")df.head()<としてインポートします/ pre> 

jupyter Notebookで上記のスクリプトを実行すると、以下のような出力が得られます-

Pythonでの探索的データ分析

まず、

  • まず、必要なライブラリ、ケース内のパンダをインポートします。

  • pandasライブラリのread_csv()関数を使用してcsvファイルを読み取り、各データは区切り文字「;」で区切られます。与えられたデータセットで。

  • pandasライブラリが提供する「.head」関数を使用して、データセットから最初の5つの観測値を返します。パンダライブラリの「.tail()」関数を使用すると、同様に最後の5つの観測値を取得できます。

以下のように「.shape」を使用して、データセットから行と列の総数を取得できます-

 df.shape 

Pythonでの探索的データ分析

info()関数を使用して、含まれているすべての列、タイプ、および値が含まれているかどうかを確認します。

 df.info()

Pythonでの探索的データ分析

上記のデータを観察することにより、次のように結論付けることができます-

  • データには、浮動小数点数の整数値のみが含まれます。

  • すべての列変数はnullではありません(空でないか、値がありません)。

パンダが提供するもう1つの便利な関数は、カウント、平均、標準偏差、最小値と最大値、およびデータの量を提供するdescribe()です。

 df.describe()

Pythonでの探索的データ分析

  • 上記のデータから、各列の平均値はインデックス列の中央値(50%)よりも小さいと結論付けることができます。

  • 予測因子「残留糖」、「遊離二酸化硫黄」、「総二酸化硫黄」の75%と最大値には大きな違いがあります。

  • 2つの観測値を超えると、データセットに極値-偏差があることを示します。

従属変数から得られる重要な洞察のカップルは次のとおりです-

 df.quality.unique()

Pythonでの探索的データ分析

  • 「品質」スコアスケールでは、1が一番下に表示されます。貧しく、10がトップになります。最高です。

  • 上記から、観測スコア1(悪い)、2、9、10(最高)のスコアはどれも結論付けられません。すべてのスコアは3から8の間です。

 df.quality.value_counts()

Pythonでの探索的データ分析

  • 上記の処理済みデータは、各品質スコアの投票数に関する情報を降順で提供します。

  • ほとんどの品質は5〜7の範囲です。

  • 3つおよび6つのカテゴリで最も少ない観測値が観測されます。

データの視覚化

欠落値を確認するには-

Seaborn Libraryを使用して、ホワイトウィスキーcsvデータセットの欠落値を確認できます。以下はそれを完全に満たすためのコードです-

パンダをpdimportnumpyas npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinesns.set()df =pd.read_csv( "https://archive.ics.uci.edu/ml/machine-learning- database / wine-quality / winequality-white.csv "、sep ="; ")sns.heatmap(df.isnull()、cbar =False、yticklabels =False、cmap ='viridis')

出力

Pythonでの探索的データ分析

  • 上から、データセットに欠落値がないことがわかります。もしあれば、紫色の背景に異なる色合いで表された図を見たでしょう。

  • 欠測値があり、違いに気付くような異なるデータセットを使用します。

相関関係を確認するには

データセットの異なる値間の相関関係を確認するには、既存のデータセットに以下のコードを挿入します-

 plt.figure(figsize =(8,4))sns.heatmap(df.corr()、cmap ='Greens'、annot =False)

出力

Pythonでの探索的データ分析

  • 上記では、正の相関は暗い色合いで表され、負の相関は明るい色合いで表されます。

  • annot =Trueの値を変更すると、出力には、グリッドセル内で機能が相互に相関している値が表示されます。

annot=Trueで別の相関行列を生成できます。以下のコード行を既存のコードに追加して、コードを変更します-

 k =12cols =df.corr()。nlargest(k、'quality')['quality']。indexcm =df [cols] .corr()plt.figure(figsize =(8,6))sns .heatmap(cm、annot =True、cmap ='viridis')

出力

Pythonでの探索的データ分析

  • 上から見ると、密度と残留糖分には強い正の相関関係があります。ただし、密度とアルコールには強い負の相関関係があります。

  • また、遊離二酸化硫黄と品質の間に相関関係はありません。


  1. Pythonデータの分析と視覚化

    Pandasは、データサイエンスと分析で最も人気のあるPythonライブラリの1つです。 Pandasライブラリは、データの操作、分析、およびクリーニングに使用されます。これは、純粋にCで記述された低レベルのNumPyを高レベルで抽象化したものです。このセクションでは、アナリストまたはデータサイエンティストとして知っておく必要のある最も重要な(最も頻繁に使用される)ことをいくつか取り上げます。 ライブラリのインストール pipを使用して必要なライブラリをインストールできます。コマンド端末で以下のコマンドを実行するだけです: pip intall pandas DataFrameとシリーズ

  2. Pythonでのデータ分析と視覚化?

    Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが