【Pandas】ワンホットエンコーディングする方法

映画のカテゴリーなどを1,0で表すことをワンホットエンコーディングと言います。

カテゴリーがAnimationであれば1、そうでなければ0のように表示します。

pandasの`get_dummies`を使うと、

pd.get_dummies(df_movie['Genre'])

`|`で区切られているジャンルを分割するには以下のようにする。

df_movie['Genre'].str.get_dummies(sep='|')

元のデータフレームに結合する時には、`concat`を使う。

df_movie = pd.concat([df_movie, df_movie['Genre'].str.get_dummies(sep='|')], axis=1)

元のカラムが必要ない場合は、

df_movie.drop('Genre', axis=1)

で削除できます。

ABOUTこの記事をかいた人

個人アプリ開発者。Python、Swift、Unityのことを発信します。月間2.5万PVブログ運営。 Twitter:@yamagablog