パンダの絶対頻度と相対頻度
統計では、「頻度」という用語は、特定のデータサンプルでの値の出現回数を示します。数学的および科学的分析を目的としたソフトウェアとして、Pandasには、特定のサンプルから頻度を計算するための多くの組み込みメソッドがあります。
絶対頻度 これは、データ要素の出現回数が計算される頻度と同じです。以下の例では、特定のDataFrameに都市の名前が表示されている回数をカウントし、頻度として報告します。
アプローチ1 −.value_countsという名前のpandasメソッドを使用します。
例
import pandas as pd # Create Data Frame data = ["Chandigarh","Hyderabad","Pune","Pune","Chandigarh","Pune"] # use the method .value_counts() df = pd.Series(data).value_counts() print(df)
出力
上記のコードを実行すると、次の結果が得られます-
Pune 3 Chandigarh 2 Hyderabad 1 dtype: int64
アプローチ2 − .crosstab
という名前のパンダメソッドを使用します例
import pandas as pd data = ["Chandigarh","Hyderabad","Pune","Pune","Chandigarh","Pune"] df = pd.DataFrame(data,columns=["City"]) tab_result = pd.crosstab(index=df["City"],columns=["count"]) print(tab_result)
出力
上記のコードを実行すると、次の結果が得られます-
col_0 count City Chandigarh 2 Hyderabad 1 Pune 3
RelativeFrequency −これは、特定の頻度とデータサンプル内の観測の総数の間の割合です。したがって、値は浮動小数点値にすることができ、パーセンテージで表すこともできます。それを見つけるために、最初のアプローチで示されているように最初に頻度を計算し、次にそれをlen()関数を使用して見つけられた観測の総数で割ります。
例
import pandas as pd # Create Data Frame data = ["Chandigarh","Hyderabad","Pune","Pune","Chandigarh","Pune"] # use the method .value_counts() df = pd.Series(data).value_counts() print(df/len(data))
出力
上記のコードを実行すると、次の結果が得られます-
Pune 0.500000 Chandigarh 0.333333 Hyderabad 0.166667 dtype: float64
-
Pythonデータの分析と視覚化
Pandasは、データサイエンスと分析で最も人気のあるPythonライブラリの1つです。 Pandasライブラリは、データの操作、分析、およびクリーニングに使用されます。これは、純粋にCで記述された低レベルのNumPyを高レベルで抽象化したものです。このセクションでは、アナリストまたはデータサイエンティストとして知っておく必要のある最も重要な(最も頻繁に使用される)ことをいくつか取り上げます。 ライブラリのインストール pipを使用して必要なライブラリをインストールできます。コマンド端末で以下のコマンドを実行するだけです: pip intall pandas DataFrameとシリーズ
-
Pythonでのデータ分析と視覚化?
Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが