OCRソフトウェアメーカー「メディアドライブ株式会社」は、認識精度の高い活字文書OCRや手書帳票OCR商品をご提供いたします。



HOME > 技術解説 > OCRとは
OCRとは

OCRとは

ここでは「OCRとはいったいなにか?」という素朴な疑問にお答えします。


OCRって何だろう?

OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。当社が商品化しているOCRがどのように文字認識をするのかを、新聞や雑誌などを読取る活字文書OCRの例でご紹介しましょう。

1:画像取り込み
新聞・雑誌などをイメージスキャナで画像として取り込む処理です。
この処理は、一般に写真などをスキャナで取り込むのと何ら変わりありません。
 
2:レイアウト解析
新聞・雑誌の多くは、単に文字が同じ並び方で並んでいるのではなく、段組みやコラムがあり、表や図があり、標題があります。画像と文字領域を分離し、それらの文字の「かたまり」がどのように配置されているかを解析し、自動的に文字認識する順番を決める処理です。
 
3:認識 [行の切り出し]
レイアウト解析で検出した文字領域の「かたまり」を、1行1行に分解する処理です。

4:認識 [文字の切り出し]
分解された行から、さらに1文字ずつに分解する処理です。

5:認識 [文字認識]
分解された文字が何の文字かを認識する処理です。まず後方処理がしやすいように文字を一定の大きさに拡大/縮小します(正規化)。
そしてその文字が持つ特徴(たて、よこ、斜めのどのような線で構成されているか)を見つけます(特徴抽出)。
見つけた特徴に合致する文字を探して、候補とします(マッチング)。
最後に、前後の文字列の候補と、日本語の単語情報と照合するなどして、最終的に決定します。
 
6:フォーマット出力
文字認識が終わると、さらにExcelやWord等で再利用できるように「元の文書と同じ形」での出力できるフォーマットに変換して出力することができます。


より簡単で便利に

人間が文字を認識するのは、無意識のうちに行われていますが、実は様々な過程を経ています。そして、その過程の中には、現在のコンピュータが不得意とするものもあります。
OCR技術解説にて説明をしてきた「レイアウト解析」から「認識:文字の切り出し」までの処理は、人間にとってまったく意識することなく瞬時に行える処理です。また、第5ステップの処理でも、例えば「夕方」という字を見ればその「夕」がカタカナの「タ」ではないことを人間はすぐに判断できますが、コンピュータでは「夕方」という言語情報を持っていない限り判別が困難です。
文脈が分からなければ、「大好き」の「大」の右上にシミがあったら「犬好き」と読んでしまうでしょう。人間が簡単に行えることでも、コンピュータには大きな障害になることはたくさんあります。それを理解し、あらかじめ最低限の障害を取り除くことで、OCRはずっと使いやすいものになります。
「認識精度が悪い」と決めつける前に、コンピュータの得意不得意を理解して、より簡単で便利な使い方を見つける事が重要です。

なぜネットワーク環境にOCRが必要なのか?

バックグラウンド
「紙の上の情報を、どの様にネット上で利用するのか」これはネットワーク上で情報をスムースにハンドリングするために避けて通れない課題です。その実現のためには、デジタル化という第一ステップが待っています。
パーソナルコンピュータ(PC)とネットワークの驚異的な発展によって、今や情報は瞬時にして世界に配信することが可能になりました。また世界中から必要な情報を容易に手に入れることもできます。
この様な状況において、社内ネットワークとインターネットをシームレスに統合し情報をシェアし、それを効率よく受信、発信しようと考えることは当然の成りゆきといえます。



しかし、古いデータは殆んどのものが紙メディアとして保存されています。デジタルであることが大前提のネットワーク上で、紙メディアの情報をいかに効率よくデジタル化するのかが、成功の鍵と言えるのです。
一度デジタル化された情報はイントラネット、インターネットを問わずあらゆる方面で活用することができます。
しかし、デジタル化する作業は労力が必要で、時間を要します。情報は必要な人によって、必要な形に「分析、加工」されてこそ価値が生まれます。デジタル化を効率良く実施し、活用するためにOCRが活躍します。

今の時代に何故OCRなのか?

ペーパーレス化への問題とメリット
・社内の重要な情報は依然として紙上にあることが多く、その情報を全てキーボードから入力していたのでは到底追いつきません。

いつでもどこでも必要な時に、必要とする人が容易に情報にアクセスできることは、業務の効率を向上させる大きな要因です。またそうすることにより、情報はいつも新鮮であり続けることができます。

しかしこの様な理想的な環境の前に立ちはだかるのが、情報のデジタル化に伴う処理の煩雑さです。
これらをキーボードから入力していたのでは、時間がいくらあっても足りません。そのうえこの様な単純な作業は、時間とともに生産性が落ちてきます。

・この様な課題に対してOCRは、何ができるのでしょう。

17世紀の産業革命以来、現在に至るまで、わざわざ人がしなくても良くなった日常の作業がたくさんあります。それは、情報革命の現在においても同じ事です。今や単なるアナログからデジタルへの変換は、コンピュータがするものなのです。OCRは、あなたを生産性のない作業から開放し、よりクリエイティブな仕事へと導いてくれるでしょう。


手入力の場合、時間がたつにつれ疲れから生産性・入力精度は低下する。
OCRの場合逆に操作の慣れによって生産性が向上し、精度も低下しない。


OCR導入効果

OCRは従来、人間に変わって文字を読み取る効率的手段として、使用されることが多かったのですが、最近では「e-文書法」や「日本版SOX法(J-SOX法)」の制定により、文書や伝票の電子化(ファイリング)が不可欠となってきています。

情報をテキストデータにするメリット。

<省スペース>
・情報をテキストデータ化することにより、物理的な保管スペースを劇的に小さくすることができます。
段ボール箱いっぱいの財務データも数メガバイトに収まります。
・画像情報をテキストデータ化することにより、メモリ上の保管スペースを約700分の1にすることができます。

白黒のA4一枚(400dpi)の画像データ約 2MB が


A4一枚(日本語1000字)のテキストデータ約 0.003MBになります



<検索の迅速性>
・情報検索が素早く簡単にできます。
情報をテキスト化することによって、文書をイメージで保管する場合に検索機能を使って、欲しい情報を素早く検索できます。

<データの再利用>
・データの再利用が簡単にできます。
紙面上で表組になっているものをOCRで読み取り、タブ区切りで出力すれば、表計算ソフトのグラフ化機能を使って瞬時にグラフ化することもできます。



<よりクリエイティブに>
・よりクリエイティブな作業に時間を使えます。
情報収集、分析、加工の作業を効率化することにより、クリエイティブな仕事に時間をまわすことができます。