Webサービス

フリーOCRソフトまとめ

2017年9月5日

OCRソフトとは画像やPDFなどのファイルから文字を読み取り、別のファイルに出力するソフトのことを言います。

紙媒体を電子化したい、いちいち手入力するのが面倒くさい方はOCRソフトを使ってみるとその便利さを改めて気づくことができるのではないでしょうか。

今回はそんなOCR機能を無料で提供してくれるソフトやサービス等をまとめてみました。

この記事は著者の使用後の感想のため、人によっては合う合わない等もあると思いますが、その点はご容赦ください。

更新:文字認識技術の発展により、さらに便利なフリーソフトが増えています。それらについてもどんどん追記していきます。

サービス名種類評価
Googleドキュメントオンライン
Renee PDF Aideソフト※
Capture2Textソフト
Ground Truth Textソフト
Soda PDFソフト※
PDFelementソフト/オンライン※
OCR Spaceオンライン
LightPDFオンライン※
i2OCRオンライン
Online OCRオンライン
OCR Convertオンライン
Pick up Toolソフト※

※がついているものは有料版あり

 

Googleドキュメント

Googleドキュメント-オンラインでドキュメントを作成できる無料サービス

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ Googleドキュメント - https://www.google.com/intl/ja_jp/docs/about/ 

「Googleドキュメント」はGoogleが提供しているオンラインドキュメントサービスです。

Googleが提供してくれているということもあり、数あるOCRソフト・サービスの中でも安心して利用できます。

変換元データとしてJpgファイルやPngファイル、PDFファイルなどから変換することができます。

使用するにはgoogleアカウントを持っている必要があります。

googleドライブと組み合わせて使える点も非常によく、無料で提供してくれているのがとてもありがたいですね。

使用した感想

Googleアカウントを持っている場合、ドライブに読み込みたいデータファイルをアップロードして、Googleドキュメントで開くだけで読み込んでくれるため、操作手順は非常に楽でした。

認識精度に関して、①PDFデータの読み込みはほぼ問題なくテキストとして読み込みが可能です。

テキストの内容によっては数式・記号などで誤認識する場合がありますが、それ以外ほとんど気にならないレベルでした。

②Wordファイルのプリント(写真)の文字認識精度は、多少の欠落はあるものの大部分で認識できていました。

気になる点としては、謎の改行やスペース(空白)が入ることが頻繁に起こる印象を感じました。

③手書きプリント(写真)の文字認識精度は、綺麗に書いた文字は8割程度の精度で認識できていましたが、潰れている文字などでほぼ誤認識を起こしていました。

 

Renee PDF Aide

Renee PDF Aide

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:ー

プリント(手書き)の認識精度:ー

サービスの操作性:

#フリーソフト(試用版) #日本語対応 #Windows

■ Renee PDF Aide - https://www.reneelab.jp/pdf-converter

OCR機能を含んだものは以前は有料版だったようですが、今回紹介するのは現在試用版(無料)で提供されているソフトです。

またこちらのソフトは強力なPDF変換が強みであり、それだけでもかなり使い勝手の高いソフトとなっています。

PDFからの変換先としてはWord、Excel、PowerPoint、HTML、などが用意されています。

試用版の場合、変換・読み込み回数などに回数制限が設けられています。

「Renee PDF Aide」の安全性に関しては、インストール後にウイルスソフトからのアラートが無く、企業への導入事例がサイトでも挙げられており、現在のところ安全だと思われます。(使用の際は各自で確認をお願いします。)

使用した感想

ソフト自体の使いやすさは公式サイトの操作方法を確認しながら操作すれば、問題なく使えると思います。

PDFの文字認識精度に関して、画像認識というよりPDF内の文字データを抽出しているため、しっかりと文字を抽出できていました。

抽出したテキストデータはtxtファイル形式で保存され、ページごとに見やすく出力されていました。

おそらく、書類をスキャンしてできたPDFなどからは文字認識を行うことができないと思われます。

 

Capture2Text

Capture2Text

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#フリーソフト(試用版) #日本語対応 #Windows

■ Capture2Text - http://capture2text.sourceforge.net/#download
こちらのソフトは、キャプチャーしたエリアの文字をテキストデータとして文字に起こすフリーソフトです。

スナップツールのようにマウスで範囲指定しその中にある文字を識別するという形になり、簡単で高い操作性が特徴です。

ですが「Capture2Text」は海外製で公式サイトがすべて英語での説明となっており、使用には少し敷居が高いかもしれません。

ソフト使用上の安全性に関しては、ウイルスソフトのアラートがなく、利用者の使用レビューも複数あがっているため現在のところ問題は無いと思われます。(使用の際は、各自で確認をお願いします。)

使用した感想

文字認識精度に関しては、WordやPDF、webページなどの一般的なフォントで表示されている文字は高い精度で認識できる印象でした。

ですが、認識できない時は出力文が総崩れするので、認識精度の面からみてもGoogleドキュメントなど高認識精度のソフト・サービスで代用したいと感じました。

また、プリントファイルの写真内の文字の文字おこしを試したところ、ほとんど認識できませんでした。

 

Ground Truth Text

GT Text

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#フリーソフト(試用版) #日本語対応 #Windows

■ Ground Truth Text - https://www.softocr.com/

こちらのソフトは先ほど同様に、キャプチャーしたエリアの文字をテキストデータとして文字に起こすフリーソフトです。

「Capture2Text」と同じようにマウスで変換したい範囲を囲んでその範囲にある文字を識別子、クリップボードにコピーしてくれるというものです。

海外の方が作成したソフトで説明が英語表記なのでこちらも少し敷居が高いかもしれません。

ウィンドウ単位、キャプチャーエリア単位で文字起こしが可能で、デフォルトでは日本語に対応していないので、日本語の追加パッケージをインストールする必要があります。

「Capture2Text」の使用上の安全性に関しては、ウイルスソフトのアラートがなく、利用者の使用レビューも複数あがっているため現在のところ問題は無いと思われます。(使用の際は、各自で確認をお願いします。)

使用した感想

PDFファイルの文字認識精度に関しては、文字の重複やスペースが勝手に入ることが多々ありましたが、手直しで修正が効くレベルでした。

文章のフォントや文字サイズによっては、高頻度で文字化けすることが予想されるので、検証が必要かもしれません。

プリントの写真の文字起こしに関しては、字の綺麗さなどにも依存すると思いますが、ほとんどが文字化けして使い物にはなりませんでした。

 

Soda PDF

https://www.sodapdf.jp/

メモ

PDFデータの認識精度:ー

プリント(Word)の認識精度:ー

プリント(手書き)の認識精度:ー

サービスの操作性:ー

#フリーソフト(体験版) #日本語対応 #Windows

■ Soda PDF - https://www.sodapdf.jp/products/free

様々なPDF操作を行うことができるPDF編集ソフトのフリー版(体験版)になります。

無料で使える体験版の使用期間は14日間となっていて、ソフトの機能の中にOCR機能が備わっています。

このソフトのOCRは光学式文字認識となっているため、テキストデータだけでなく、画像上の文字をテキストとして認識することができます。

このソフトは現在、認証エラー?によってPCへのインストール作業が行うことができない可能性があります。

また安全性に関して、このソフトは製品の仕様上、手元のPCで指定したPDFファイルをオンライン上で編集する操作を行う特性上、機密情報の高いデータを使用することはオススメしません。

 

PDFelement

PDFelement

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#フリーソフト(無料版) #日本語対応 #Windows #Mac

■ PDFelement - https://pdf.wondershare.jp/pdfelement-new/

PDFの編集ツールが集約したPC用ソフトの無料版の紹介です。

「Renee PDF Aide」と同じく、多彩なPDF編集機能の中の1つに文字認識用のOCR機能が用意されています。

また、無料版でも制限なくOCR機能を使うことができます。はじめて使用する場合、OCRコンポーネントをインストールする必要があります。

ただし、読み込む際はPDFである必要があるため、jpgやpngファイルで文字認識をすることはできません。

設定項目の中に、PDF内の画像から文字認識を行うオプションもあるので、画像中の文字も抽出することができます。

「PDFelement」の使用上の安全性に関しては、ウイルスソフトのアラートがなく、利用者の使用レビューも複数あがっているため現在のところ問題は無いと思われます。(使用の際は、各自で確認をお願いします。)

使用した感想

PDFを読み込むと、PDFに記載されている文字がパーツごとにきちんと認識されて、編集しやすい形に出力されました。

あくまでOCRメインのソフトではなくPDF編集のためのソフトなので、認識されたテキスト情報を別ファイルにまとめようとすると、コピー&ペーストを何度もする必要があるかと思います。

認識精度に関しては、Googleドキュメントとそん色ない程度という印象を受けました。

PDFelement online:https://www.hipdf.com/jp/ocr

このソフトのPro版を購入した場合、高い認識精度のOCRをオンラインで利用することができます。

 

OCR Space

https://ocr.space/

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ OCR Space - https://ocr.space/

オンライン上で文字認識をしてくれる海外製のフリーOCRソフトです。

使い方はとても簡単で、文字抽出をしたいPDF、PNG、JPGなどのファイルをアップロードして言語指定を日本語にするだけで、、簡単にテキスト情報を取得することができます。

出力はテキストデータに加えて、Json形式での出力結果を確認することができます。

オンラインにアップロードして文字認識を行う特性上、安全性に関してはプライバシーポリシー等があるものの機密情報等を使用するのは避けた方が良いと思われます。

使用した感想

PDFデータの文字抽出は日本語をしっかり認識して、文字抽出できていました。性能としてはGoogleドキュメントとほぼ同等であると感じました。

一方で、プリントを撮影した写真から文字抽出する光学式文字認識性能に関しては、ほとんどが文字化けして出力され、使い物になりずらいかなという印象を受けました。

手軽に利用でき、複雑な操作も少ないですが、Googleドキュメントで良いかなと感じました。

 

LightPDF

https://lightpdf.com/jp/ocr

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ LightPDF - https://lightpdf.com/jp/ocr

オンラインで簡単にPDFや画像などから文字認識を行うことができるフリーOCRサービスとなっています。

このサイト(サービス)はOCRだけでなく、PDFの編集に関係する機能が他にも多数用意されています。

有料版と無料版の違いとしては、処理速度の違いや処理制度の違いがあるようですが、無料(何も登録せず)で使用した場合でも問題なく高いクオリティで使用することができました。

「LightPDF」の安全性に関しては、オンライン上で収集できるデータに関してすべてのファイルの安全を保障する旨がプライバシーポリシーに記載されていますが、機密情報などを利用するのは念のため避けた方がよさそうです。

ホームページトップにはこれまで、サイト上で処理されたファイル数が記載されていますが、ほんとに多くのユーザが多用していることが伺えます。

使用した感想

他ソフトと同様の検証を行ったところ、精度に関してはかなり高いと感じました。

まず、PDFファイルをそのまま読み込ませた結果、Googleドキュメントとほぼ同じ精度で認識できていました。

また、驚いた点として、プリント(Wordや手書き)の写真を読み込ませたところ、多少の誤認識はあるものの、他ソフト・サービスと比較しても一番認識精度が高いと感じました。

 

i2OCR

https://www.i2ocr.com/free-online-japanese-ocr

メモ

PDFデータの認識精度:ー

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ i2OCR - https://www.i2ocr.com/free-online-japanese-ocr

オンラインで手軽に画像から文字認識を行うことができるフリーOCRサービスです。

海外製ですが、日本語の文字認識にも対応していて、画像から文字抽出をてきます。

画像専用のため、PDFファイルを指定してもエラーで文字抽出を実行することができません。

また、「i2OCR」の安全性に関しては、オンライン上で収集できるデータに関してすべてのファイルの安全を保障する旨がプライバシーポリシーに記載されていますが、機密情報などを利用するのは念のため避けた方がよさそうです。

使用した感想

上記の星評価でも分かるかもしれませんが、認識精度は他ソフト・サービスと比べても決して高くはありません。

私が検証した際には、ほとんどが文字化けして使い物になるレベルとは遠い印象を受けました。

恐らくですが、海外製ということもあり、英語の文字抽出に特化したサービスなのではないかと考えています。

 

Online OCR

https://www.onlineocr.net/ja/

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ Online OCR - https://www.i2ocr.com/free-online-japanese-ocr

こちらもオンライン上に文字抽出したいファイルをアップロードして、クラウド上で文字抽出した結果を出力してもらうサービスです。

光学式文字認識となっているため、画像データから文字を抽出することが可能です。

文字抽出可能なファイルとしてはPDFをはじめJPGやBMP、TIFF、GIFなどのファイルに対応していて、出力形式としてはTxtファイルだけでなくWordファイルに出力することができます。

登録(無料)すると複数ページの変換や大きいサイズの画像から文字抽出することができるようになります。

「Online OCR」の安全性に関しては、オンライン上で収集できるデータに関してすべてのファイルの安全を保障する旨がプライバシーポリシーに記載されていますが、機密情報などを利用するのは念のため避けた方がよさそうです。

使用した感想

PDFの文字認識は精度が良く、多少の誤認識(文字の重複や空欄挿入)はあったものの、手修正で足りる認識精度だと感じました。

一方で、ドキュメントをスキャンしたもの、写真として撮ったものを認識してみたところ、大部分が文字化けすることが起きたため、実用的ではないかもしれません。

 

OCR Convert

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#オンライン #日本語対応 #Windows #Mac

■ OCR Convert - https://www.ocrconvert.com/

オンライン上で手軽に文字抽出することができるフリーOCRwebサービスです。

変換元ファイルとして指定できる拡張子は、.pdf、.jpg、.pngなどが対象となっています。

「OCR Convert」の安全性に関しては、オンライン上で収集できるデータに関してすべてのファイルの安全を保障する旨がプライバシーポリシーに記載されていますが、機密情報などを利用するのは念のため避けた方がよさそうです。

使用した感想

こちらも他ソフト・サービスと同様にPDFの光学文字認識の性能はかなり高いものがあると感じました。

一方で、スキャンしたドキュメントや手書きのドキュメントをスキャンしたものの文字認識・抽出では、誤認識ばかりが出力されていたため、実用的ではないという印象を受けました。

 

Pick up Tool

メモ

PDFデータの認識精度:

プリント(Word)の認識精度:

プリント(手書き)の認識精度:

サービスの操作性:

#フリーソフト #日本語対応 #Windows

■ Pick up Tool - https://www.vector.co.jp/soft/winnt/hardware/se517773.html

Vectork本的にフリーソフトで紹介されているキャプチャー型OCRフリーソフトとなっています。

Microsoftの文字認識APIを使用しているため、高い認識精度となっているのが特徴です。

一方で、高い認識精度をずっと使うには有料版のAPIキーを個別に取得する必要があるため、試用版で使い勝手が良いと感じた場合は有料APIキーを取得してみてもいいかもしれません。

ダウンロード後は、おまけでOnline OCRを内部で使用しているため、機密情報を含むデータの認識は控えた方が良いかもしれません。

 

さいごに

以上、少しではありますがフリーソフトを紹介いたしました。

ただ、フリーということもあり識別能力に関しては決していいとは言えないと思います。

OCRソフトは有料版も多く存在するのでいつか有料版を触ってみてそのレビューをしてみようと思います。

読んでいただいてありがとうございました!

-Webサービス

© 2021 ガジェジー