Python
 Computer >> コンピューター >  >> プログラミング >> Python

PandasDataFrameでの処理時間


この記事では、組み込みのパンダライブラリを使用してさまざまなタイムスタンプを生成および処理する方法について学習します。また、numpyモジュールを使用して、タイムスタンプの生成に必要なデータベースを生成および変更しています。

推奨されるIDE:Jupyterノートブック

このチュートリアルを開始する前に、pandasとnumpyライブラリをインストールする必要があります。このjupyterノートブックは、コードをテストして実行するのに最適な場所です。パンダをインストールするには、次のコマンドを実行する必要があります。

>>> pip install pandas

このコマンドを実行すると、すべての依存関係が自動的にインストールされます。インストールが完了したら、カーネルを再起動して変更を確認する必要があります。

すべての依存関係のインストールが完了したら、パンダを「p」としてインポートできます。

ここでは、データフレームコンストラクターを呼び出し、日付引数から期間4、頻度2時間でデータベースを初期化します。キー「time」を指定することにより、データベースを表示しています。

>>> pip install pandas
>>> import pandas as p
>>> data_struct = p.DataFrame()
>>> data_struct['time'] = p.date_range('14/7/2019', periods = 4, freq='3H')
>>> print(data_struct['time'])
0 2019-07-14 00:00:00
1 2019-07-14 03:00:00
2 2019-07-14 06:00:00
3 2019-07-14 09:00:00
Name: time, dtype: datetime64[ns]

.dt。を使用すると、特徴が抽出されます。 head()メソッドを使用して、データベースのすべての行を表示します。

>>> data_struct['year'] = data_struct['time'].dt.year
>>> data_struct.head(4)
   time
0 2019-07-14 00:00:00 2019
1 2019-07-14 03:00:00 2019
2 2019-07-14 06:00:00 2019
3 2019-07-14 09:00:00 2019

ここでは、numpyモジュールに存在する.array()関数を実装して、時間文字列を作成しました。これらの文字列は、pandasライブラリの.to_datetime()メソッドを使用してDateTimeに変換されます。

>>> import numpy as n
>>> dt_timestring = n.array(['14-07-2019 07:26 AM', '13-07-2019 11:01 PM'])
>>> timestamps = [p.to_datetime(date, format ="%d-%m-%Y %I:%M %p", errors ="coerce") for date in dt_timestring]
>>> print(timestamps)
[Timestamp('2019-07-14 07:26:00'), Timestamp('2019-07-13 23:01:00')]

ここでは、.set_index()メソッドを使用して「日付」フィールドが最初に表示されることを意味する日付でデータベースにインデックスを付けています。

>>> data_struct1 = p.DataFrame()
>>> data_struct1['date'] = p.date_range('18/07/2019', periods = 5, freq ='2H')
>>> data_struct1= data_struct1.set_index(data_struct1['date'])
>>> print(data_struct1.head(5))
   date
date
2019-07-18 00:00:00 2019-07-18 00:00:00
2019-07-18 02:00:00 2019-07-18 02:00:00
2019-07-18 04:00:00 2019-07-18 04:00:00
2019-07-18 06:00:00 2019-07-18 06:00:00
2019-07-18 08:00:00 2019-07-18 08:00:00

データベースの特定のデータセットのみを表示する場合は、以下で説明するようにコマンドを実装できます-

>>> data_struct2 = p.DataFrame()
>>> data_struct2['date'] = p.date_range('17/07/2019', periods =3, freq ='4H')
>>> print(data_struct2.head(5))
   date
0 2019-07-17 00:00:00
1 2019-07-17 04:00:00
2 2019-07-17 08:00:00
>>> inp = data_struct2[(data_struct2['date'] > '2019-07-17 04:00:00')]
>>> print(inp)
   date
2 2019-07-17 08:00:00

結論

この記事では、さまざまな方法でタプルをパックおよびアンパックする方法を学びました。


  1. MatplotlibでPandasデータフレームをプロットする方法は?

    Matplotlibを使用して、Pandas DataFrameで折れ線グラフ、円グラフ、ヒストグラムなどをプロットできます。このためには、PandasとMatplotlibライブラリをインポートする必要があります- import pandas as pd import matplotlib.pyplot as plt プロットを始めましょう- 折れ線グラフ 例 以下はコードです- import pandas as pd import matplotlib.pyplot as plt # creating a DataFrame with 2 columns dataFrame = pd

  2. PythonPandas-DataFrame内のすべてのNaN要素を0に置き換えます

    NaN値を置き換えるには、fillna()メソッドを使用します。以下が、いくつかのNaN値を使用してMicrosoftExcelで開いたCSVファイルであるとしましょう- まず、必要なライブラリをインポートします- import pandas as pd CSVファイルからPandasDataFrameにデータをロードする- dataFrame = pd.read_csv("C:\\Users\\amit_\\Desktop\\SalesData.csv") fillna()メソッドを使用してNaN値を0に置き換えます- dataFrame.fillna(0)