【Tesseract】OCRツールで文字認識ができるか試してみた

 

UbuntuにOCRツールをインストールして、文字認識を試してみました。

 

Tesseractと言うツールを使います。とても読みづらいツール名ですね。このツールがコマンド一発でインストールできたので、使うのはとても簡単です。

 

今回はUbuntuでやってみましたが、MacやWindowsでもできるみたいです。

 

今回やってみたことは以下の通り。

  1. UbuntuにTesseractをインストール
  2. パワポで文字を書いて画像として保存
  3. Tesseractで文字認識できるかテスト

 

順番に見ていきましょう。

 

スポンサーリンク

 

Tesseractのインストール

 

Ubuntu18.04 にツールをインストールしました。

これだけです。

バージョンを確認してみると、

4.0.0-beta.1のようです。

 

パワポで文字を書く

 

適当に文字を書いてみました。

 

sample_1.png

図のようにある程度枠を取ってからその上に文字を書いた方が認識されやすいです。

 

sample_2.png

数字も試してみます。

 

sample_3.png

大文字と小文字も試して見ましょう。

 

テスト

 

 

ちゃんと認識されていますね。

 

このツールはPythonでも使えるようなのでその辺も試していきたいと思います。

 

おわり。

 

参考

Installing Tesseract for OCR:

https://www.pyimagesearch.com/2017/07/03/installing-tesseract-for-ocr/