Python
 Computer >> コンピューター >  >> プログラミング >> Python

Pandas Pythonでデータをどのように要約できますか?


さまざまな関数を使用して、データに関する多くの情報を取得できます。ただし、データに関するすべての情報を取得したい場合は、「説明」機能を使用できます。

この関数は、「カウント」、「平均」、「標準偏差」、25パーセンタイル、50パーセンタイル、75パーセンタイルなどの情報を提供します。

import pandas as pd
my_data = {'Name':pd.Series(['Tom','Jane','Vin','Eve','Will']),
'Age':pd.Series([45, 67, 89, 12, 23]),'value':pd.Series([8.79,23.24,31.98,78.56,90.20])
}
print("The dataframe is :")
my_df = pd.DataFrame(my_data)
print(my_df)
print("The description of data is :")
print(my_df.describe())

出力

The dataframe is :
   Name  Age   value
0  Tom   45   8.79
1  Jane  67   23.24
2  Vin   89   31.98
3  Eve   12   78.56
4  Will  23   90.20
The description of data is :
          Age     value
count  5.000000  5.000000
mean  47.200000  46.554000
std   31.499206  35.747102
min   12.000000  8.790000
25%   23.000000  23.240000
50%   45.000000  31.980000
75%   67.000000  78.560000
max   89.000000  90.200000

説明

  • 必要なライブラリがインポートされ、使いやすいようにエイリアス名が付けられています。
  • キーと値で構成されるシリーズの辞書が作成されます。値は実際にはシリーズのデータ​​構造です。
  • この辞書は、後で「パンダ」ライブラリにある「データフレーム」関数にパラメータとして渡されます
  • データフレームはコンソールに印刷されます。
  • データに関するすべての情報を取得することを検討しています。
  • 「describe」関数はデータフレームで呼び出されます。
  • 説明はコンソールに印刷されます。

  1. 非線形データをPythonのモデルにどのように適合させることができますか?

    データの視覚化に役立つSeabornライブラリを使用します。回帰モデルを作成するときに、多重共線性がチェックされます。これは、連続変数のすべての異なる組み合わせの間に存在する相関関係を理解する必要があるためです。変数間に多重共線性が存在する場合は、それがデータから削除されていることを確認する必要があります。通常、実世界のデータは非線形です。 このような非線形データをモデルに適合させるメカニズムを見つける必要があります。このデータを視覚化するために、Anscombeのデータセットを使用します。 「implot」関数は、この非線形データで使用されます。 これが例です- 例 import pan

  2. データをバックアップするにはどうすればよいですか?

    今日の IT の世界では、包括的なバックアップ戦略を持つことが不可欠です。データが失われる方法は非常に多いため、不快な状況に直面しないためには、データを正常にバックアップする方法を理解することが重要です。では、どのようにデータをバックアップできますか? データ損失 サイバー攻撃、不正な従業員、自然災害、メディアの損傷、および人的エラーは、データを失う可能性があるいくつかの方法にすぎません.データを失うことは、個人にとっては迷惑で悲痛なことかもしれませんが、組織にとっては、その影響は取り返しのつかないものになる可能性があります. Consoltech のこれらの恐ろしい数字のいくつかを以下で見