機械学習(K-NN)でフルーツを分類してみた

こんにちは、のっくんです。

今日は機械学習を使って、フルーツの分類をしてみようと思います。

スポンサーリンク

フルーツといっても画像データではなく、重さなどの数値データを使います。

以下のサイトにあったデータを使います。

fruit_data

 

中身はこんな感じ。

 

重さ、横幅、高さ、色のスコアがあります。

目に見えないですが、タブで区切られているので区切り文字をタブ(\t)にして読み込みます。

 

フルーツの名前の数を見るには以下のようにします。

 

りんご、レモン、マンダリン、オレンジの4つの種類があることがわかりました。

マンダリンは5つしかないですね。

 

ラベルとデータに分解してみます。

pandasのデータフレームから複数の列を取り出すには、カラム名をリストで指定します。

 

データの分布を見るには以下のようにスキャッターマトリックスを作成します。

4つの点がグループ化できそうな感じがします。横幅と高さで見ると紫のマンダリンが小さいのですぐにわかりそうですね。

データの分割と標準化を行います。

 

k-NN近傍法で分類してみます。

訓練95%,テスト100%の精度で分類できました。

 

おわり。

 

参考:

https://medium.com/@ocktavia/fruits-lovers-solving-a-simple-classification-problem-with-python-e63ae067422c