Python Pandas –サブセットを作成し、重複する値から最後のエントリのみを表示します
サブセットを作成し、重複する値から最後のエントリのみを表示するには、「キープ」を使用します 」パラメータと「最後」 drop_duplicates()メソッドの「」値。 drop_duplicates()メソッドは重複を削除しました。
まず、3列のDataFrameを作成しましょう-
dataFrame = pd.DataFrame({'Car': ['BMW', 'Mercedes', 'Lamborghini', 'BMW', 'Mercedes', 'Porsche'],'Place': ['Delhi', 'Hyderabad', 'Chandigarh', 'Delhi', 'Hyderabad', 'Mumbai'],'UnitsSold': [85, 70, 80, 95, 55, 90]})
重複を削除し、最後のエントリを表示します。 keepパラメーターを使用して、「last」を設定しました。最後のエントリ以外の重複行は削除されます。 「サブセット」パラメータを使用してサブセットを検討しました-
dataFrame2 = dataFrame.drop_duplicates(subset = ['Car', 'Place'], keep ='last').reset_index(drop = True)
例
以下はコードです-
import pandas as pd # Create DataFrame dataFrame = pd.DataFrame({'Car': ['BMW', 'Mercedes', 'Lamborghini', 'BMW', 'Mercedes', 'Porsche'],'Place': ['Delhi', 'Hyderabad', 'Chandigarh', 'Delhi', 'Hyderabad', 'Mumbai'],'UnitsSold': [85, 70, 80, 95, 55, 90]}) print"Dataframe...\n", dataFrame # removing duplicates and displaying last entry # using keep parameter, we have set "last" # duplicate rows except the last entry will get deleted # considered a subset using the subset parameter dataFrame2 = dataFrame.drop_duplicates(subset = ['Car', 'Place'], keep ='last').reset_index(drop = True) print"\nUpdated DataFrame after removing duplicates...\n",dataFrame2
出力
これにより、次の出力が生成されます-
Dataframe... Car Place UnitsSold 0 BMW Delhi 85 1 Mercedes Hyderabad 70 2 Lamborghini Chandigarh 80 3 BMW Delhi 95 4 Mercedes Hyderabad 55 5 Porsche Mumbai 90 Updated DataFrame after removing duplicates... Car Place UnitsSold 0 Lamborghini Chandigarh 80 1 BMW Delhi 95 2 Mercedes Hyderabad 55 3 Porsche Mumbai 90
-
PythonPandas-インデックスに基づいて列から特定の値を選択してサブセットを作成します
インデックスに基づいて列から特定の値を選択してサブセットを作成するには、iloc()メソッドを使用します。まず、パンダライブラリをインポートしましょう パンダをpdとしてインポート 製品レコードを使用してPandasDataFrameを作成します。 3つの列があります dataFrame =pd.DataFrame({Product:[SmartTV、 ChromeCast、 Speaker、 Earphone]、 Opening_Stock:[300、700、1200、1500]、 Closing_Stock: [200、500、1000、900]}) iloc(を使用して、2列と最初
-
PythonPandas-データフレームのインデックスをマルチインデックスの形式で表示します
データフレームのインデックスをマルチインデックスの形式で表示するには、dataframe.index()を使用します。まず、リストの辞書を作成しましょう- # dictionary of lists d = {'Car': ['BMW', 'Lexus', 'Audi', 'Mercedes', 'Jaguar', 'Bentley'], 'Date_of_purchase': ['2020-10-10', '2020-10-12