Python
 Computer >> コンピューター >  >> プログラミング >> Python

データ分析のためのPythonでの文字列の数値への置き換え


データ分析で文字列を数値(int / float)に変換する必要がある場合があります。文字列ごとに、文字列値を区別するために一意の整数値を割り当てることができます。

このために、コンマ区切り値(CSV)ファイルのデータを使用します。次のようなCSVデータを含むExcelファイルがあるとします-

会社 業界 推奨事項
HDFC銀行 財務 保留
アポロ ヘルスケア 購入
ヒーロー 自動車 アンダーパフォーム
はい銀行 財務 保留
M&M 自動車 アンダーパフォーム
Fortis ヘルスケア 購入
マルティ 自動車 アンダーパフォーム

上記は大規模なデータセットからのほんの数行です。別の推奨事項を提示する必要があります。メタデータにリンクする整数値を購入、保留、アンダーパフォームなど。したがって、上記の入力の場合、期待される出力は次のようになります-

会社 業界 推奨事項
HDFC銀行 財務 2
アポロ ヘルスケア 1
ヒーロー 自動車 3
はい銀行 財務 2
M&M 自動車 3
Fortis ヘルスケア 1
マルティ 自動車 3

文字列(列の値)を整数に置き換える方法は次のとおりです。

コード1

#Import required library
import pandas as pd
#Import the CSV file into Python using read_csv() from pandas
dataframe = pd.read_csv("data_pandas1.csv")
#Create the dictionary of key-value pair, where key is
#your old value(string) and value is your new value(integer).
Recommendation = {'Buy': 1, 'Hold': 2, 'Underperform': 3}
#Assign these different key-value pair from above dictiionary to your table
dataframe.Recommendation = [Recommendation[item] for item in dataframe.Recommendation]
#New table
print(dataframe)

結果

          Company         Industry        Recommendation
   0    HDFC Bank          Finance         2
   1    Apollo             Healthcare      1
   2    Hero               Automobile      3
   3    Yes Bank           Finance         2
   4    M&M                Automobile      3
   5    Fortis             Healthcare      1 
   6    Maruti             Automobile      3

上記のコードを記述する別の方法があります。辞書を処理せず、条件が一致する場合は、代わりに列フィールド(ここでは推奨事項)に別の値を直接割り当てます。

#Import required library
import pandas as pd
#Import the CSV file into Python using read_csv() from pandas
dataf = pd.read_csv("data_pandas1.csv")
#Directly assigning individual fields of Recommendation column different integer value
#if condition matches .i.e.In the dataframe, recommendation columns we have "Buy" we'll assign
# integer 1 to it.
dataf.Recommendation[data.Recommendation =='Buy'] =1
dataf.Recommendation[data.Recommendation =='Hold'] =2
dataf.Recommendation[data.Recommendation =='Underperform'] =3
print(dataf)

結果

    Company      Industry       Recommendation
0    HDFC Bank    Finance        2
1    Apollo       Healthcare     1
2    Hero         Automobile     3
3    Yes Bank     Finance        2
4    M&M          Automobile     3
5    Fortis       Healthcare     1
6    Maruti       Automobile     3

上記では、テーブル(csv形式のファイル)の文字列データを整数値に置き換える唯一の方法について説明しましたが、データフィールドを文字列から整数に変更するという同じ要件がある場合に多くのインスタンスが発生します。


  1. Pythonでのデータ分析と視覚化?

    Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが

  2. Pythonでの探索的データ分析

    データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます- データセットへの洞察を与えるため。 基礎となる構造を理解します。 重要なパラメータとそれらの間にある関係を抽出します。 基礎となる仮定をテストします。 サンプルデータセットを使用したEDAの理解 Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデ