Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pythonの分割表


分割表は、1つの変数が行に、別の変数が列に分布していることを示す表です。これは、2つの変数間の相関関係を調査するために使用されます。これは、各観測値がいくつかの変数のそれぞれについて1つのカテゴリに属する​​データセットを記述する多方向テーブルです。また、基本的には、2つ以上のカテゴリ変数間のカウントの集計です。分割表はクロス集計表または双方向表とも呼ばれ、統計でいくつかのカテゴリ変数間の関係を要約するために使用されます。

分割係数は、2つの変数またはデータセットが互いに独立しているか、依存しているかを示す関連係数です。これは、ピアソンの係数とも呼ばれます。

以下の例では、分析のためにアイリスフラワーデータセットを使用します。このデータセットは、3種類のアイリス(Iris setosa、Iris virginica、Iris versicolor)のそれぞれからの50個のサンプルで構成されています。各サンプルから4つの特徴が測定されました。がく片と花びらの長さと幅(センチメートル単位)です。これらの機能に基づいて、最終的に種を区別するために使用される偶発モデルを作成します。

データセットの読み取り

 import numpy as npimport pandas as pddatainput =pd.read_csv( "iris.csv")print(datainput.head(5))

上記のコードを実行すると、次の結果が得られます。

 SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species0 5.1 3.5 1.4 0.2 Iris-setosa1 4.9 3.0 1.4 0.2 Iris-setosa2 4.7 3.2 1.3 0.2 Iris-setosa3 4.6 3.1 1.5 0.2 Iris-setosa4 5.0 3.6 1.4 0.2 Iris-setosa 

データの一般的な統計

次に、describe()を使用して、データの一般的な統計を収集します。 ITは、データの分散方法の平均とさまざまな四分位数についてのアイデアを提供します。

 import numpy as npimport pandas as pddatainput =pd.read_csv( "iris.csv")print(datainput.describe())

上記のコードを実行すると、次の結果が得られます。

 SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCmcount 150.000000 150.000000 150.000000 150.000000mean 5.843333 3.054000 3.758667 1.198667std 0.828066 0.433594 1.764420 0.763161min 4.300000 2.000000 1.000000 0.10000025%5.100000 2.800000 1.600000 0.30000050%5.800000 3.000000 4.350000 1.3000 

データ型

次に、データフレーム内の列のさまざまなデータ型を観察します。

 import numpy as npimport pandas as pddatainput =pd.read_csv( "iris.csv")print(datainput.dtypes)

上記のコードを実行すると、次の結果が得られます。

 SepalLengthCm float64SepalWidthCm float64PetalLengthCm float64PetalWidthCm float64Species objectdtype:object 

分割表の作成

次に、各種の花弁幅を示す列の分割表を作成します。このために、パンダで使用可能なクロス集計関数を使用し、これらの2つの列の名前を入力として指定します。

 import numpy as npimport pandas as pddatainput =pd.read_csv( "iris.csv")width_species =pd.crosstab(datainput ['PetalWidthCm']、datainput ['Species']、margins =False)print(width_species)

上記のコードを実行すると、次の結果が得られます。

種Iris-setosaIris-versicolorIris-virginicaPetalWidthCm0.1 6 0 00.2 28 0 00.3 7 0 01.0 0 7 01.1 0 3 01.2 0 5 01.8 0 1 111.9 0 0 52.0 0 0 62.1 0 0 62.5 0 0 3 

多変量分割表

この場合、分割表を作成するために3つ以上の列を使用します。ここでは、種の種類ごとに花びらの長さと幅の両方を使用します。

 import numpy as npimport pandas as pddatainput =pd.read_csv( "iris.csv")length_width_species =pd.crosstab([datainput.PetalLengthCm、datainput.PetalWidthCm]、datainput.Species、margins =False)print(length_width_species)

上記のコードを実行すると、次の結果が得られます。

種Iris-setosaIris-versicolorIris-virginicaPetalLengthCm PetalWidthCm1.0 0.2 1 0 01.1 0.1 1 0 01.2 0.2 2 0 01.3 0.2 4 0 00.3 2 0 0 ... ... ... ... 6.4 2.0 0 0 16.6 2.1 0 0 16.7 2.0 0 0 12.2 0 0 16.9 2.3 0 0 1 

  1. matplotlibPythonを使用してテーブルをX軸に位置合わせする

    matplotlibを使用してテーブルをX軸に揃えるには、次の手順を実行できます ステップ 図のサイズを設定し、サブプロット間およびサブプロットの周囲のパディングを調整します。 データフレームのデータのリストを作成します。 データフレームの列のタプルを作成します 。 行のリストを作成します および値 。 変数を初期化しますvalue_increment 。 データポイントを使用して棒グラフを作成します。 データをテーブルに入れます。 y-label、yticks、xticks、を設定します とタイトル プロットの。 図を表示するには、 S

  2. Pythonのissuperset()

    この記事では、Pythonでのissuperset()と、さまざまな分野でのその実装について学習します。 このメソッドは、セットBのすべての要素に引数として渡されるすべての要素セットAが含まれている場合はブール値Trueを返し、Aのすべての要素がBに存在しない場合はfalseを返します。 これは、BがAのスーパーセットである場合、それを意味します returns true; else False 例 いくつかの例を見てみましょう A = {'t','u','t','o','r','i',