【Pandas】プレミアリーグのランキングを分析してみる

2018年のプレミアリーグは、マンチェスタシティが優勝、リバプールが２位、３位がチェルシーでした。

https://www.bbc.co.uk/sport/football/premier-league/table

今日はPandasを使ってこのランキング表を取得してみたいと思います。

必要のないデータの削除(drop)

最初の２つのカラムが必要ないので、消します。

df.drop(df.columns[:2],inplace=True,axis=1)
df.head()

データの末尾を見てみると、

df.tail()

関係のないランキングのアップデート情報がありました。これは必要ないので消します。

20行目と、ついでにFormカラムを消します。

df.drop(df.index[20],axis=0,inplace=True)
df.drop(["Form"],axis=1,inplace=True)

データタイプを数値に変換(to_numeric)

さて、ここで下準備が整ったので、分析していきたいと思います。

分析するには、カラムのデータタイプが数値である必要があります。

各カラムのデータタイプを確認してみます。

df.dtypes

Team    object
P       object
W       object
D       object
L       object
F       object
A       object
GD      object
Pts     object
dtype: object

なんとオブジェクトになっています。これは文字列(String)ということなので、数値にしないと計算ができません。

こういう時は、`to_numeric`を適用します。

errors=”coerce”を指定すると、数値に変換できなかった時にはNaNに変換してくれます。

df[["P","W","D","L","F","A","GD","Pts"]] = df[["P","W","D","L","F","A","GD","Pts"]].apply(pd.to_numeric,errors="coerce")

Team    object
P        int64
W        int64
D        int64
L        int64
F        int64
A        int64
GD       int64
Pts      int64
dtype: object

int64に変換ができました。

列名の変更(rename)

ここで１つ問題があります。列名が省略された文字なのでなんの事だかわかりません。

分かるように列名を変更しましょう。

inplace=Trueを指定すると、データフレームに変更が反映されます。

#カラム名の変更
df.rename(index=str, columns={"P": "Play", "W": "Win","D":"Draw","L":"Lose","F":"For"
                              ,"A":"Against"},inplace=True)

Playは試合数、Winは勝利数、Drawは引き分けの数、Loseは負けの数、Forは得点数の合計、Againstは失点数の合計、GD(Goal Difference)は得失点差です。Ptsは勝ち点ですね。

試しに１試合あたりの得点数と失点数を計算し、新しい列を追加してみます。

失点は英語で”Conceded”というらしいです。

df["Goal/Game"] = round(df["For"]/df["Play"],1)
df["Conceded Goal/Game"] = round(df["Against"]/df["Play"],1)

こんな感じで右側に２つのカラムを追加できました。

マンチェスターシティとリバプールは１試合あたりの得点が多いし、失点も少ないですね。

カラムのソート(sort_values)

１試合あたりの得点が多い順に並べてみましょう。

df.sort_values("Goal/Game",ascending=False)

Pandasを使うと、このようにスクレイピング＋データ分析ができます。

おわり。

【Pandas】プレミアリーグのランキングを分析してみる

ランキング表のスクレイピング(read_html)

必要のないデータの削除(drop)

データタイプを数値に変換(to_numeric)

列名の変更(rename)

カラムのソート(sort_values)

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

安全確保支援士にやっと受かった

楽しいことだけやる

フリーな1日

CoreDataのエンティティーをプレビューで渡す

プロフィール

サイト内検索

Twitter

ランキング表のスクレイピング(read_html)

必要のないデータの削除(drop)

データタイプを数値に変換(to_numeric)

列名の変更(rename)

カラムのソート(sort_values)

RECOMMENDこちらの記事も人気です。

numpyの基本的な使い方

【Unity】アイテムドロップ機能を実装してみた

【Unity】admobのリワード広告をつけてみた

【Unity】iOSアプリにAdmob広告を追加してみた

【Unity】Rigidbodyの物体を反復運動させる方法

【Flask】Jinjaテンプレートエンジンの使い方

ラズパイでLEDを点滅（チカチカ）させる

【Unity】FPS操作をタッチ画面に対応させてみた

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

安全確保支援士にやっと受かった

楽しいことだけやる

フリーな1日

CoreDataのエンティティーをプレビューで渡す

プロフィール

サイト内検索

Twitter

タグクラウド