【OpenCV】k-NNアルゴリズムを理解する

こんにちは。のっくんです。

今日は機械学習のk-NNアルゴリズムを理解してみようと思います。

k-NNとは簡単に言うと、最近傍、つまりもっとも近い点をk個探す方式です。そして、新しいデータがある時は多数決をとって近くに多くある方のクラスに分類します。

この例でいうと、

kが1の時は三角が１番近いので新しい点は三角に分類されます。
kが3の時は三角が２個、四角が１個なので三角に分類されます。

kは奇数にすることが推奨されています。なぜかと言うと、例えば、kが2で三角が１個、四角が１個の場合に、どちらにも分類できなくなってしまうからですね。

コードを書いて理解してみましょう。

やりたいことは以下の通り。

１０個のデータとラベルをランダムに作る。
ラベルの値によって、青チームと赤チームに分類する。
新しい点(new_comer)をランダムに作り可視化する。
k-nn法を使って新しい点が青チームか赤チームどちらに分類されるか試してみる。

順番に書いていきましょう。

データとラベルを生成

import numpy as np
import matplotlib.pyplot as plt
import cv2

#乱数シードを固定
np.random.seed(42)

#枠線を表示
plt.style.use('ggplot')

# 座標(x,y)を持つ配列データを作成する
def rand_gen(sample):
    data = np.random.randint(0,100,size=(sample,2))
    label = np.random.randint(0,2,size=(sample))
    return data.astype(np.float32),label

# １０個の座標(x,y)を持つ配列データを作成する
data,label = rand_gen(10)

データは0-100、ラベルは0-1の範囲で設定しています。

データは32bitの浮動小数点にしています。opencvで処理する時のためのルールです。

青チームと赤チームに分類

# １は赤、０は青とする
red = data[label.ravel() == 1]
blue = data[label.ravel() == 0]

numpyのravel()を使って値を指定するとそのデータのみを取得することができます。

ラベルが１であれば赤チーム、0であれば青チームとしましょう。

新しい点を作り可視化

新しい点は先ほど作った関数で作成します。k-nnでクラスを予測するので、戻り値のラベルは破棄します。

可視化には、`matplotlib`を使います。

#　新しいデータを生成、ラベルは無視する
new_comer, _ = rand_gen(1)

# bはブルー、rはレッド、gはグリーン
plt.plot(blue[:,0],blue[:,1],"bo")
plt.plot(red[:,0],red[:,1],"ro")
plt.plot(new_comer[0,0],new_comer[0,1],"go")

k-nnで分類

#学習する
knn = cv2.ml.KNearest_create()
knn.train(data,cv2.ml.ROW_SAMPLE,label)

ret,result,neighbor,dist = knn.findNearest(new_comer,1)
print(result,neighbor,dist)

ret,result,neighbor,dist = knn.findNearest(new_comer,7)
print(result,neighbor,dist)

k=1の時は、

[[ 0.]] [[ 0.]] [[ 872.]]

0、つまり青と分類されました。１番近い点が青だったからです。

k=7の時は、

[[ 1.]] [[ 0.  0.  1.  1.  1.  1.  1.]] [[  872.  1480.  1568.  2602.  3305.  3602.  4505.]]

1、つまり赤と分類されました。７つの近傍点のラベルの多数決をとり、赤の方が多かったので赤となったわけです。

おわり。

【OpenCV】k-NNアルゴリズムを理解する

データとラベルを生成

青チームと赤チームに分類

新しい点を作り可視化

k-nnで分類

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

安全確保支援士にやっと受かった

楽しいことだけやる

フリーな1日

CoreDataのエンティティーをプレビューで渡す

プロフィール

サイト内検索

Twitter

データとラベルを生成

青チームと赤チームに分類

新しい点を作り可視化

k-nnで分類

RECOMMENDこちらの記事も人気です。

「The App Store Icon in the asset cat…

マラリアに感染しているかディープラーニングで判別してみた

【Swift】viewDidLoadとviewDidAppearの違いに…

【Django】How to upload image

ラズパイに焦電型赤外線センサーを接続してみた

【Unity】Debug.logのログを非表示にする方法

【Tkinter】TreeViewの文字や背景の色を設定する方法

【django】テーブルの連携と外部キー

ABOUTこの記事をかいた人

NEW POSTこのライターの最新記事

安全確保支援士にやっと受かった

楽しいことだけやる

フリーな1日

CoreDataのエンティティーをプレビューで渡す

プロフィール

サイト内検索

Twitter

タグクラウド