Pythonでの探索的データ分析
データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます-
-
データセットへの洞察を与えるため。
-
基礎となる構造を理解します。
-
重要なパラメータとそれらの間にある関係を抽出します。
-
基礎となる仮定をテストします。
サンプルデータセットを使用したEDAの理解
Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデータを取得し、EDAを使用してデータセットについて多くの洞察を得ようとしています。
パンダをpddf=pd.read_csv( "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv")df.head()<としてインポートします/ pre>jupyter Notebookで上記のスクリプトを実行すると、以下のような出力が得られます-
まず、
-
まず、必要なライブラリ、ケース内のパンダをインポートします。
-
pandasライブラリのread_csv()関数を使用してcsvファイルを読み取り、各データは区切り文字「;」で区切られます。与えられたデータセットで。
-
pandasライブラリが提供する「.head」関数を使用して、データセットから最初の5つの観測値を返します。パンダライブラリの「.tail()」関数を使用すると、同様に最後の5つの観測値を取得できます。
以下のように「.shape」を使用して、データセットから行と列の総数を取得できます-
df.shape
info()関数を使用して、含まれているすべての列、タイプ、および値が含まれているかどうかを確認します。
df.info()
上記のデータを観察することにより、次のように結論付けることができます-
-
データには、浮動小数点数の整数値のみが含まれます。
-
すべての列変数はnullではありません(空でないか、値がありません)。
パンダが提供するもう1つの便利な関数は、カウント、平均、標準偏差、最小値と最大値、およびデータの量を提供するdescribe()です。
df.describe()
-
上記のデータから、各列の平均値はインデックス列の中央値(50%)よりも小さいと結論付けることができます。
-
予測因子「残留糖」、「遊離二酸化硫黄」、「総二酸化硫黄」の75%と最大値には大きな違いがあります。
-
2つの観測値を超えると、データセットに極値-偏差があることを示します。
従属変数から得られる重要な洞察のカップルは次のとおりです-
df.quality.unique()
-
「品質」スコアスケールでは、1が一番下に表示されます。貧しく、10がトップになります。最高です。
-
上記から、観測スコア1(悪い)、2、9、10(最高)のスコアはどれも結論付けられません。すべてのスコアは3から8の間です。
df.quality.value_counts()
-
上記の処理済みデータは、各品質スコアの投票数に関する情報を降順で提供します。
-
ほとんどの品質は5〜7の範囲です。
-
3つおよび6つのカテゴリで最も少ない観測値が観測されます。
データの視覚化
欠落値を確認するには-
Seaborn Libraryを使用して、ホワイトウィスキーcsvデータセットの欠落値を確認できます。以下はそれを完全に満たすためのコードです-
パンダをpdimportnumpyas npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inlinesns.set()df =pd.read_csv( "https://archive.ics.uci.edu/ml/machine-learning- database / wine-quality / winequality-white.csv "、sep ="; ")sns.heatmap(df.isnull()、cbar =False、yticklabels =False、cmap ='viridis')
出力
-
上から、データセットに欠落値がないことがわかります。もしあれば、紫色の背景に異なる色合いで表された図を見たでしょう。
-
欠測値があり、違いに気付くような異なるデータセットを使用します。
相関関係を確認するには
データセットの異なる値間の相関関係を確認するには、既存のデータセットに以下のコードを挿入します-
plt.figure(figsize =(8,4))sns.heatmap(df.corr()、cmap ='Greens'、annot =False)
出力
-
上記では、正の相関は暗い色合いで表され、負の相関は明るい色合いで表されます。
-
annot =Trueの値を変更すると、出力には、グリッドセル内で機能が相互に相関している値が表示されます。
annot=Trueで別の相関行列を生成できます。以下のコード行を既存のコードに追加して、コードを変更します-
k =12cols =df.corr()。nlargest(k、'quality')['quality']。indexcm =df [cols] .corr()plt.figure(figsize =(8,6))sns .heatmap(cm、annot =True、cmap ='viridis')
出力
-
上から見ると、密度と残留糖分には強い正の相関関係があります。ただし、密度とアルコールには強い負の相関関係があります。
-
また、遊離二酸化硫黄と品質の間に相関関係はありません。
-
Pythonデータの分析と視覚化
Pandasは、データサイエンスと分析で最も人気のあるPythonライブラリの1つです。 Pandasライブラリは、データの操作、分析、およびクリーニングに使用されます。これは、純粋にCで記述された低レベルのNumPyを高レベルで抽象化したものです。このセクションでは、アナリストまたはデータサイエンティストとして知っておく必要のある最も重要な(最も頻繁に使用される)ことをいくつか取り上げます。 ライブラリのインストール pipを使用して必要なライブラリをインストールできます。コマンド端末で以下のコマンドを実行するだけです: pip intall pandas DataFrameとシリーズ
-
Pythonでのデータ分析と視覚化?
Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが