Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonプログラムによるデータ分析と視覚化


このチュートリアルでは、パンダなどのモジュールを使用したデータ分析と視覚化について学習します。 およびma​​tplotlib Python 。 Pythonは、データ分析に最適です。モジュールをインストールするパンダ およびma​​tplotlib 次のコマンドを使用します。

pip install pandas


pip install matplotlib

インストールプロセスが完了すると、成功メッセージが表示されます。まず、パンダについて学びます その後、 matplotlibが表示されます 。

パンダ

Pandasは、データ分析ツールを提供するPythonのオープンソースライブラリです。 パンダの便利な方法をいくつか見ていきます。 データ分析用。

データフレームの作成

DataFrame を作成するには、複数の行が必要です 。方法を見てみましょう。

# importing the pands package
import pandas as pd
# creating rows
hafeez = ['Hafeez', 19]
aslan = ['Aslan', 21]
kareem = ['Kareem', 18]
# pass those Series to the DataFrame
# passing columns as well
data_frame = pd.DataFrame([hafeez, aslan, kareem], columns = ['Name', 'Age'])
# displaying the DataFrame
print(data_frame)

出力

上記のプログラムを実行すると、次の結果が得られます。

Name Age
0 Hafeez 19
1 Aslan 21
2 Kareem 18

パンダを使用したデータのインポート

リンクに移動してCSVをダウンロードします ファイル。 CSVのデータ カンマ(、)で区切られた行になります。 パンダを使用してデータをインポートして使用する方法を見てみましょう 。

# importing pandas package
import pandas as pd
# importing the data using pd.read_csv() method
data = pd.read_csv('CountryData.IND.csv')
# displaying the first 5 rows using data.head() method
print(data.head())

出力

上記のプログラムを実行すると、次の結果が得られます。

Pythonプログラムによるデータ分析と視覚化

形状変数を使用して、行と列がいくつあるかを見てみましょう。

# importing pandas package
import pandas as pd
# importing the data using pd.read_csv() method
data = pd.read_csv('CountryData.IND.csv')
# no. of rows and columns
print(data.shape)

出力

上記のプログラムを実行すると、次の結果が得られます。

(29, 16)

describe()というメソッドがあります NaNを除くさまざまな統計を計算します 。一度見てみましょう。

# importing pandas package
import pandas as pd
# importing the data using pd.read_csv() method
data = pd.read_csv('CountryData.IND.csv')
# no. of rows and columns
print(data.describe())

出力

上記のプログラムを実行すると、次の結果が得られます。

Pythonプログラムによるデータ分析と視覚化

データプロット

パッケージma​​tplotlibがあります データを使用してグラフを作成します。 matplotlibを使用してさまざまなタイプのグラフを作成する方法を見てみましょう 。

# importing the pyplot module to create graphs
import matplotlib.pyplot as plot
# importing the data using pd.read_csv() method
data = pd.read_csv('CountryData.IND.csv')
# creating a histogram of Time period
data['Time period'].hist(bins = 10)

出力

上記のプログラムを実行すると、次の結果が得られます。

<matplotlib.axes._subplots.AxesSubplot at 0x25e363ea8d0>

Pythonプログラムによるデータ分析と視覚化

matplotlib を使用して、さまざまなタイプのグラフを作成できます パッケージ。

結論

チュートリアルについて疑問がある場合は、コメントセクションにその旨を記載してください。


  1. Pythonでのデータ分析と視覚化?

    Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが

  2. Pythonでの探索的データ分析

    データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます- データセットへの洞察を与えるため。 基礎となる構造を理解します。 重要なパラメータとそれらの間にある関係を抽出します。 基礎となる仮定をテストします。 サンプルデータセットを使用したEDAの理解 Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデ