Pythonでのデータ分析と視覚化?
Pythonは、主にnumpy、pandas、matplotlib、seabornなどのデータ分析と視覚化のための多数のライブラリを提供します。このセクションでは、numpyの上に構築されたオープンソースライブラリであるデータ分析と視覚化のためのpandasライブラリについて説明します。
>これにより、迅速な分析とデータのクリーニングと準備を行うことができます。Pandasには、以下で説明する多数の組み込みの視覚化機能も用意されています。
インストール
パンダをインストールするには、ターミナルで以下のコマンドを実行します-
pipinstall pandas
Orweにはanacondaがあり、使用できます
condainstall pandas
パンダ-DataFrames
パンダを使用する場合、データフレームは主要なツールです。
コード-
import numpy as np import pandas as pd from numpy.random import randn np.random.seed(50) df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z']) df
出力
| w | x | y | z |
---|---|---|---|---|
a | -1.560352 | -0.030978 | -0.620928 | -1.464580 |
b | 1.411946 | -0.476732 | -0.780469 | 1.070268 |
c | -1.282293 | -1.327479 | 0.126338 | 0.862194 |
d | 0.696737 | -0.334565 | -0.997526 | 1.598908 |
e | 3.314075 | 0.987770 | 0.123866 | 0.742785 |
f | -0.393956 | 0.148116 | -0.412234 | -0.160715 |
パンダ-欠測データ
欠測データのインパンダを処理するための便利な方法をいくつか見ていきます。インパンダは自動的にゼロまたはナンで埋められます。
import numpy as np import pandas as pd from numpy.random import randn d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]} df = pd.DataFrame(d) df
出力
| A | B | C |
---|---|---|---|
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | NaN | 4 |
2 | NaN | NaN | 9 |
したがって、上記には3つの欠落値があります。
df.dropna()
| A | B | C |
---|---|---|---|
0 | 1.0 | 9.0 | 1 |
df.dropna(axis = 1)
| C |
---|---|
0 | 1 |
1 | 4 |
2 | 9 |
df.dropna(thresh = 2)
| A | B | C |
---|---|---|---|
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | NaN | 4 |
df.fillna(value = df.mean())
| A | B | C |
---|---|---|---|
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | 9.0 | 4 |
2 | 1.5 | 9.0 | 9 |
パンダ-データのインポート
ローカルマシン(私の場合)に保存されているcsvファイルを読み取るか、Webから直接フェッチできます。
#import pandas library import pandas as pd #Read csv file and assigned it to dataframe variable df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1") #Read first five element from the dataframe df.head()
出力
データフレームまたはcsvファイルの行と列の数を読み取ります。
#Countthe number of rows and columns in our dataframe. df.shape
出力
(4166,9)
パンダ-データフレーム数学
データフレームの操作は、パンダの統計用のさまざまなツールを使用して実行できます
#To computes various summary statistics, excluding NaN values df.describe()
出力
# computes numerical data ranks df.rank()
出力
.....
.....
パンダ-プロットグラフ
import matplotlib.pyplot as plt years = [1981, 1991, 2001, 2011, 2016] Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.plot(years, Average_populations) plt.title("Census of India: sample registration system") plt.xlabel("Year") plt.ylabel("Average_populations") plt.show()
出力
上記のデータの散布図:
plt.scatter(years,Average_populations)
ヒストグラム:
import matplotlib.pyplot as plt Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.hist(Average_populations, bins = 10) plt.xlabel("Average_populations") plt.ylabel("Frequency") plt.show()
出力
-
Pythonデータの分析と視覚化
Pandasは、データサイエンスと分析で最も人気のあるPythonライブラリの1つです。 Pandasライブラリは、データの操作、分析、およびクリーニングに使用されます。これは、純粋にCで記述された低レベルのNumPyを高レベルで抽象化したものです。このセクションでは、アナリストまたはデータサイエンティストとして知っておく必要のある最も重要な(最も頻繁に使用される)ことをいくつか取り上げます。 ライブラリのインストール pipを使用して必要なライブラリをインストールできます。コマンド端末で以下のコマンドを実行するだけです: pip intall pandas DataFrameとシリーズ
-
Pythonでの探索的データ分析
データ分析の場合、探索的データ分析(EDA)を最初のステップにする必要があります。探索的データ分析は、次のことに役立ちます- データセットへの洞察を与えるため。 基礎となる構造を理解します。 重要なパラメータとそれらの間にある関係を抽出します。 基礎となる仮定をテストします。 サンプルデータセットを使用したEDAの理解 Pythonを使用してEDAを理解するために、任意のWebサイトから直接またはローカルディスクからサンプルデータを取得できます。ワイン品質データセットの赤い変種が公開されているUCIMachineLearning Repositoryからサンプルデ