データ分析のためのPythonでの文字列の数値への置き換え
データ分析で文字列を数値(int / float)に変換する必要がある場合があります。文字列ごとに、文字列値を区別するために一意の整数値を割り当てることができます。
このために、コンマ区切り値(CSV)ファイルのデータを使用します。次のようなCSVデータを含むExcelファイルがあるとします-
HDFC銀行 | 財務 | 保留 |
アポロ | ヘルスケア | 購入 |
ヒーロー | 自動車 | アンダーパフォーム |
はい銀行 | 財務 | 保留 |
M&M | 自動車 | アンダーパフォーム |
Fortis | ヘルスケア | 購入 |
マルティ | 自動車 | アンダーパフォーム |
上記は大規模なデータセットからのほんの数行です。別の推奨事項を提示する必要があります。メタデータにリンクする整数値を購入、保留、アンダーパフォームなど。したがって、上記の入力の場合、期待される出力は次のようになります-
HDFC銀行 | 財務 | 2 |
アポロ | ヘルスケア | 1 |
ヒーロー | 自動車 | 3 |
はい銀行 | 財務 | 2 |
M&M | 自動車 | 3 |
Fortis | ヘルスケア | 1 |
マルティ | 自動車 | 3 |
文字列(列の値)を整数に置き換える方法は次のとおりです。
コード1
#Import required library import pandas as pd #Import the CSV file into Python using read_csv() from pandas dataframe = pd.read_csv("data_pandas1.csv") #Create the dictionary of key-value pair, where key is #your old value(string) and value is your new value(integer). Recommendation = {'Buy': 1, 'Hold': 2, 'Underperform': 3} #Assign these different key-value pair from above dictiionary to your table dataframe.Recommendation = [Recommendation[item] for item in dataframe.Recommendation] #New table print(dataframe)
結果
Company Industry Recommendation 0 HDFC Bank Finance 2 1 Apollo Healthcare 1 2 Hero Automobile 3 3 Yes Bank Finance 2 4 M&M Automobile 3 5 Fortis Healthcare 1 6 Maruti Automobile 3
上記のコードを記述する別の方法があります。辞書を処理せず、条件が一致する場合は、代わりに列フィールド(ここでは推奨事項)に別の値を直接割り当てます。
#Import required library import pandas as pd #Import the CSV file into Python using read_csv() from pandas dataf = pd.read_csv("data_pandas1.csv") #Directly assigning individual fields of Recommendation column different integer value #if condition matches .i.e.In the dataframe, recommendation columns we have "Buy" we'll assign # integer 1 to it. dataf.Recommendation[data.Recommendation =='Buy'] =1 dataf.Recommendation[data.Recommendation =='Hold'] =2 dataf.Recommendation[data.Recommendation =='Underperform'] =3 print(dataf)
結果
Company Industry Recommendation 0 HDFC Bank Finance 2 1 Apollo Healthcare 1 2 Hero Automobile 3 3 Yes Bank Finance 2 4 M&M Automobile 3 5 Fortis Healthcare 1 6 Maruti Automobile 3
上記では、テーブル(csv形式のファイル)の文字列データを整数値に置き換える唯一の方法について説明しましたが、データフィールドを文字列から整数に変更するという同じ要件がある場合に多くのインスタンスが発生します。
-
Pythonでのデータ分析と視覚化?
Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。 これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。 インストール パンダをインストールするには、ターミナルで以下のコマンドを実行します- pipinstall pandas Orweにはanacondaが
-
Pythonでの探索的データ分析
データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます- データセットへの洞察を与えるため。 基礎となる構造を理解します。 重要なパラメータとそれらの間にある関係を抽出します。 基礎となる仮定をテストします。 サンプルデータセットを使用したEDAの理解 Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデ