Python
 Computer >> コンピューター >  >> プログラミング >> Python

PythonPandasを使用したデータ分析


このチュートリアルでは、Pythonパンダライブラリを使用したデータ分析を確認します。ライブラリパンダ Cで書かれています 。したがって、速度に問題はありません。データ分析で有名です。パンダには2種類のデータストレージ構造があります。 シリーズです およびDataFrame 。一つずつ見ていきましょう。

1。シリーズ

Seriesは、カスタマイズされたインデックスと値を持つ1D配列です。 pandas.Series(data、index)を使用してSeriesオブジェクトを作成できます クラス。シリーズは、整数、リスト、辞書をデータとして受け取ります。いくつかの例を見てみましょう。

# importing the pandas library
import pandas as pd
# data
data = [1, 2, 3]
# creating Series object
# Series automatically takes the default index
series = pd.Series(data)
print(series)

出力

上記のプログラムを実行すると、次の結果が得られます。

0 1
1 2
2 3
dtype: int64

カスタマイズされたインデックスを作成するにはどうすればよいですか?例を参照してください。

# importing the pandas library
import pandas as pd
# data
data = [1, 2, 3]
# index
index = ['a', 'b', 'c']
# creating Series object
series = pd.Series(data, index)
print(series)

出力

上記のプログラムを実行すると、次の結果が得られます。

a 1
b 2
c 3
dtype: int64

データを辞書としてシリーズに提供する場合 クラスの場合、キーをインデックスとして、値を実際のデータとして受け取ります。一例を見てみましょう。

# importing the pandas library
import pandas as pd
# data
data = {'a':97, 'b':98, 'c':99}
# creating Series object
series = pd.Series(data)
print(series)

出力

上記のプログラムを実行すると、次の結果が得られます。

a 97
b 98
c 99
dtype: int64

インデックスを使用してシリーズのデータ​​にアクセスできます。例を見てみましょう。

# importing the pandas library
import pandas as pd
# data
data = {'a':97, 'b':98, 'c':99}
# creating Series object
series = pd.Series(data)
# accessing the data from the Series using indexes
print(series['a'], series['b'], series['c'])

出力

上記のコードを実行すると、次の結果が得られます。

97 98 99

2。パンダ

パンダでSeriesクラスを使用する方法があります。 DataFrameの使用方法を見てみましょう クラス。 DataFrame 行と列を含むパンダのデータ構造クラス。

DataFrameを作成できます リスト、辞書、シリーズ、を使用するオブジェクト など、リストを使用してDataFrameを作成しましょう。

# importing the pandas library
import pandas as pd
# lists
names = ['Tutorialspoint', 'Mohit', 'Sharma']
ages = [25, 32, 21]
# creating a DataFrame
data_frame = pd.DataFrame({'Name': names, 'Age': ages})
# printing the DataFrame
print(data_frame)

出力

上記のプログラムを実行すると、次の結果が得られます。

               Name    Age
0    Tutorialspoint    25
1             Mohit    32
2            Sharma    21

シリーズを使用してデータフレームオブジェクトを作成する方法を見てみましょう。

# importing the pandas library
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# creating a DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# printing the DataFrame
print(data_frame)

出力

上記のコードを実行すると、次の結果が得られます。

   a  b  c
0  1  1  1
1  2  4  8
2  3  9  27

DataFramesからデータにアクセスできます 列名を使用します。一例を見てみましょう。

# importing the pandas library
import pandas as pd
# Series
_1 = pd.Series([1, 2, 3])
_2 = pd.Series([1, 4, 9])
_3 = pd.Series([1, 8, 27])
# creating a DataFrame
data_frame = pd.DataFrame({"a":_1, "b":_2, "c":_3})
# accessing the entire column with name 'a'
print(data_frame['a'])

出力

上記のコードを実行すると、次の結果が得られます。

0 1
1 2
2 3
Name: a, dtype: int64

結論

チュートリアルで疑問がある場合は、コメントセクションでそれらについて言及してください。


  1. Pythonを使用したBase64データエンコーディング

    base64モジュールの関数は、バイナリデータをプレーンテキストプロトコルを使用した送信に適したASCIIのサブセットに変換します。 エンコーディングおよびデコーディング機能は、Base16、Base32、およびBase64アルゴリズムを定義するRFC 3548の仕様と、デファクトスタンダードのAscii85およびBase85エンコーディングの仕様を実装します。 RFC 3548エンコーディングは、バイナリデータのエンコーディングに適しており、電子メールで安全に送信したり、URLの一部として使用したり、HTTPPOSTリクエストの一部として含めたりすることができます。 このモジュールによっ

  2. Pythonでの探索的データ分析

    データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます- データセットへの洞察を与えるため。 基礎となる構造を理解します。 重要なパラメータとそれらの間にある関係を抽出します。 基礎となる仮定をテストします。 サンプルデータセットを使用したEDAの理解 Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデ