Python
 Computer >> コンピューター >  >> プログラミング >> Python

Python Pandas –サブセットを作成し、重複する値から最後のエントリのみを表示します


サブセットを作成し、重複する値から最後のエントリのみを表示するには、「キープ」を使用します 」パラメータと「最後」 drop_duplicates()メソッドの「」値。 drop_duplicates()メソッドは重複を削除しました。

まず、3列のDataFrameを作成しましょう-

dataFrame = pd.DataFrame({'Car': ['BMW', 'Mercedes', 'Lamborghini', 'BMW', 'Mercedes', 'Porsche'],'Place': ['Delhi', 'Hyderabad', 'Chandigarh', 'Delhi', 'Hyderabad', 'Mumbai'],'UnitsSold': [85, 70, 80, 95, 55, 90]})

重複を削除し、最後のエントリを表示します。 keepパラメーターを使用して、「last」を設定しました。最後のエントリ以外の重複行は削除されます。 「サブセット」パラメータを使用してサブセットを検討しました-

dataFrame2 = dataFrame.drop_duplicates(subset = ['Car', 'Place'], keep ='last').reset_index(drop = True)

以下はコードです-

import pandas as pd

# Create DataFrame
dataFrame = pd.DataFrame({'Car': ['BMW', 'Mercedes', 'Lamborghini', 'BMW', 'Mercedes', 'Porsche'],'Place': ['Delhi', 'Hyderabad', 'Chandigarh', 'Delhi', 'Hyderabad', 'Mumbai'],'UnitsSold': [85, 70, 80, 95, 55, 90]})

print"Dataframe...\n", dataFrame

# removing duplicates and displaying last entry
# using keep parameter, we have set "last"
# duplicate rows except the last entry will get deleted
# considered a subset using the subset parameter
dataFrame2 = dataFrame.drop_duplicates(subset = ['Car', 'Place'], keep ='last').reset_index(drop = True)
print"\nUpdated DataFrame after removing duplicates...\n",dataFrame2

出力

これにより、次の出力が生成されます-

Dataframe...
           Car       Place   UnitsSold
0          BMW       Delhi          85
1     Mercedes   Hyderabad          70
2  Lamborghini  Chandigarh          80
3          BMW       Delhi          95
4     Mercedes   Hyderabad          55
5      Porsche      Mumbai          90

Updated DataFrame after removing duplicates...
           Car       Place   UnitsSold
0  Lamborghini  Chandigarh          80
1          BMW       Delhi          95
2     Mercedes   Hyderabad          55
3      Porsche      Mumbai          90

  1. PythonPandas-インデックスに基づいて列から特定の値を選択してサブセットを作成します

    インデックスに基づいて列から特定の値を選択してサブセットを作成するには、iloc()メソッドを使用します。まず、パンダライブラリをインポートしましょう パンダをpdとしてインポート 製品レコードを使用してPandasDataFrameを作成します。 3つの列があります dataFrame =pd.DataFrame({Product:[SmartTV、 ChromeCast、 Speaker、 Earphone]、 Opening_Stock:[300、700、1200、1500]、 Closing_Stock: [200、500、1000、900]}) iloc(を使用して、2列と最初

  2. PythonPandas-データフレームのインデックスをマルチインデックスの形式で表示します

    データフレームのインデックスをマルチインデックスの形式で表示するには、dataframe.index()を使用します。まず、リストの辞書を作成しましょう- # dictionary of lists d = {'Car': ['BMW', 'Lexus', 'Audi', 'Mercedes', 'Jaguar', 'Bentley'], 'Date_of_purchase': ['2020-10-10', '2020-10-12