Pythonでの統計的思考
統計は、mlとAIを学ぶための基本です。 Pythonはこれらのテクノロジーに最適な言語であるため、統計分析を組み込んだPythonプログラムの作成方法を説明します。この記事では、さまざまなPythonモジュールを使用してグラフやチャートを作成する方法を説明します。このさまざまなグラフは、データをすばやく分析し、内部を導き出すのに役立ちます。
データの準備
さまざまなシードに関するデータを含むデータセットを取得します。このデータセットは、以下のプログラムに示されているリンクのkaggleで入手できます。さまざまなシードの特徴を比較するためのさまざまなタイプのチャートを作成するために使用される8つの列があります。次のプログラムは、ローカル環境からデータセットをロードし、行のサンプルを表示します。
例
import pandas as pd import warnings warnings.filterwarnings("ignore") datainput = pd.read_csv('E:\\seeds.csv') #https://www.kaggle.com/jmcaro/wheat-seedsuci print(datainput)
出力
上記のコードを実行すると、次の結果が得られます-
Area Perimeter Compactness ... Asymmetry.Coeff Kernel.Groove Type 0 15.26 14.84 0.8710 ... 2.221 5.220 1 1 14.88 14.57 0.8811 ... 1.018 4.956 1 2 14.29 14.09 0.9050 ... 2.699 4.825 1 3 13.84 13.94 0.8955 ... 2.259 4.805 1 4 16.14 14.99 0.9034 ... 1.355 5.175 1 .. ... ... ... ... ... ... ... 194 12.19 13.20 0.8783 ... 3.631 4.870 3 195 11.23 12.88 0.8511 ... 4.325 5.003 3 196 13.20 13.66 0.8883 ... 8.315 5.056 3 197 11.84 13.21 0.8521 ... 3.598 5.044 3 198 12.30 13.34 0.8684 ... 5.637 5.063 3 [199 rows x 8 columns]
ヒストグラムの作成
ヒストグラムを作成するには、csvファイルからヘッダー行を削除し、ファイルをnumpy配列として読み取ります。次に、genfromtxtモジュールを使用してファイルを読み取ります。提出されたカーネルの長さは、配列の列インデックス3として配置されます。最後に、matplotlibを使用して、numpyによって作成されたデータセットを使用してヒストグラムをプロットし、必要なラベルを適用します。
例
import matplotlib.pyplot as plot import numpy as np from numpy import genfromtxt seed_data = genfromtxt('E:\\seeds.csv', delimiter=',') Kernel_Length = seed_data[:, [3]] x = len(Kernel_Length) y = np.sqrt(x) y = int(y) z = plot.hist(Kernel_Length, bins=y, color='#FF4040') z = plot.xlabel('Kernel_Length') z = plot.ylabel('values') plot.show()
出力
上記のコードを実行すると、次の結果が得られます-
経験累積分布関数
このグラフは、データセット全体に分散されたカーネルグルーブサイズのプロットを示しています。最小値から最大値の順に並べられ、分布として表示されます。
例
import matplotlib.pyplot as plot import numpy as np from numpy import genfromtxt seed_data = genfromtxt('E:\\seeds.csv', delimiter=',') Kernel_groove = seed_data[:, 6] def ECDF(seed_data):#Empirical cumulative distribution functions i = len(seed_data) m = np.sort(seed_data) n = np.arange(1, i + 1) / i return m, n m, n = ECDF(Kernel_groove) plot.plot(m, n, marker='.', linestyle='none') plot.xlabel('Kernel_Groove') plot.ylabel('Empirical cumulative distribution functions') plot.show()
出力
上記のコードを実行すると、次の結果が得られます-
蜂の群れのプロット
beeswarmプロットは、個々のデータポイントを視覚的にクラスタリングすることにより、データポイントのグループのサイズを示します。このグラフを作成するために、seabornライブラリを使用します。データセットの[タイプ]列を使用して、類似したタイプのシードをクラスター化します。
例
import pandas as pd import matplotlib.pyplot as plot import seaborn as sns datainput = pd.read_csv('E:\\seeds.csv') sns.swarmplot(x='Type', y='Asymmetry.Coeff',data=datainput, color='#458B00')#bee swarm plot plot.xlabel('Type') plot.ylabel('Asymmetry_Coeff') plot.show()
出力
上記のコードを実行すると、次の結果が得られます-
-
Pythonでの顧客離れの予測
すべてのビジネスは顧客の忠誠心に依存しています。顧客からのリピートビジネスは、ビジネスの収益性の基礎の1つです。したがって、顧客が事業を辞める理由を知ることが重要です。顧客が離れることは、顧客離れとして知られています。過去の傾向を見ることで、顧客離れに影響を与える要因と、特定の顧客がビジネスから離れるかどうかを予測する方法を判断できます。この記事では、MLアルゴリズムを使用して、顧客離れの過去の傾向を調査し、どの顧客が離れる可能性が高いかを判断します。 データの準備 例として、この記事のテレコム顧客チャーンを検討します。ソースデータはkaggelで入手できます。データをダウンロードするための
-
Pythonで国勢調査データを分析する
国勢調査とは、特定の人口に関する情報を体系的に記録することです。キャプチャされたデータには、人口統計、経済、居住の詳細など、さまざまなカテゴリの情報が含まれます。これは、最終的に政府が現在のシナリオと将来の計画を理解するのに役立ちます。この記事では、Pythonを活用してインドの人口の人口調査データを分析する方法を説明します。さまざまな人口統計学的および経済的側面を見ていきます。次に、分析をグラフィカルに投影する電荷をプロットします。 kaggleから収集されたソース。ここにあります。 データの整理 以下のプログラムでは、最初に短いPythonプログラムを使用してデータを取得します。さらに分