AI OCR

UNTILIZATION OF DEEP LEARNING

AI OCR とは

AI OCRとは、手書きの書類や帳票の読み取りを行い、データ化するOCRへAI技術を活用する新たなOCR処理をいいます。
AI OCRは、AI（人工知能）の研究開発が加速する中、特に深層学習（Deep Learning）の成果を活用して文字認識精度やレイアウト解析（認識範囲の特定）精度の向上を図り、汎用性を高めることで活用範囲が拡大しています。また、RPAとの親和性も高く、OCRで紙書類/帳票を自動的に読み取り、認識結果をRPAで活用（業務システムへのデータ入力など）することで、様々な分野での業務改善を実現できます。

メニュー

AI OCR を利用すると

AI OCRを利用することで、手書き文字の認識精度が向上します。癖字、達筆、個性的な文字も高精度に認識することが可能となります。

AI OCRを利用することで、従来、精度向上が難しいとされた「文字や行の接触」「かすれ文字」などの認識精度が劇的に改善し、地紋領域に書かれた文字（文字の背景に地紋や情景画像があるケース）、罫線にかかる文字、取り消し線なども高精度に認識できるように進化しました。

また、AI OCRが得意とするドキュメント画像理解により、今までOCRで実現困難とされていた書類（文書/帳票）も高精度でOCRできます。従来のOCRでは、あらかじめレイアウトが決まっている「定型帳票」の運用がほとんどでしたが、AI OCRでは、注文書や領収書のような企業/店舗や種類ごとにレイアウトが異なる「準定型帳票」にも対応可能となり、加えて、契約書や図面などのフリーフォーマットで作成された文書への対応も可能としています。

AI（人工知能）とOCR（文字認識）のトレンド

AI（人工知能）は、大きく、論理学や哲学から知性を宿す機械を目指す「Symbolism（シンボリズム）」と人間の脳の模倣から知性を宿す機械を目指す「Connectionism（コネクショニズム）の２つの陣営に分かれて研究されてきました。

AI（人工知能）のトレンド

Symbolismは、プログラミング的（アルゴリズムなど）な分野での研究がベースで、1950年代から関数型・手続き型プログラム「LISP」や論理プログラム「PROLOG」などにより成果が現れはじめました。一方、Connectionismは、人間の脳を模倣（約120億個の神経細胞のかたまりをコンピュータの浮動小数点の積和演算で、疑似的にシミュレーション）した深層学習（ディープラーニング）の研究が進み、2006年の成果を始まりとして、研究が活性化し、特に2015年ごろから、静止画、動画、音声など、パターン認識技術を中心に、新しい成果が続々登場してきました

OCR（文字認識）のトレンド

OCR（文字認識）の研究も、AI（人工知能）のトレンドと似た背景を持っています。従来のOCR（文字認識）エンジンは、主にプログラミング（アルゴリズム）の研究により、精度向上を図ってきました。つまり、Symbolism的な研究の成果・集積でしたが、近年、コンピュータの高速化、大容量化、高解像度化により、実用に耐えられなかったConnectionismが実用レベルに到達し、深層学習（ディープラーニング）による精度向上を図る動きが活発になり、今まで困難であった様々な認識を実現し、AI-OCRがひとつのブームとなっています。

深層学習（Deep Learning）の進化の要因

すべてのデジタルの世界をつかさどる根源は、３大要素技術、すなわち「CPU」（処理装置）、「ストレージ」（記憶装置）、「ネットワーク」（伝送装置）それぞれがエクスポネンシャルに性能を上げ続けている。その恩恵を深層学習は受けることで進化している。

深層学習（Deep Learning）によるドキュメント画像理解

CAT（猫）の絵（画像）を「CAT（猫）」と理解するには？

深層学習（Deep Learning）とは

「深層学習（Deep Learning）とは、人間の脳の擬似的シミュレーションの集積となります。人間の脳は、約40億個の神経細胞のかたまり、40億個の超並列の化学反応のかたまりですが、一つの神経細胞を見ると比較的簡単な構造といえ、コンピュータの浮動小数点の積和演算で、擬似的にシミュレーションンが可能です。このシミュレーションを多数の細胞体で行うのが「深層学習（Deep Learning）」となります。

画像認識 CNN（Convolutional Neural Network)

プログラミングではなく、事例の学習により、パターン認識を実現します。
「人間自身がどうやっているか判らない？処理」の実現が可能であり、単文字認識などに広く活用可能です。

画像認識 CNN をモバイル端末での名刺識別へ応用

文字の認識だけでなく認識対象の抽出に応用することが可能です。当社が保有する従来の画像処理技術とCNNを合わせて利用することで、手持ちの名刺を背景にとらわれず名刺画像（外枠）のみを抽出します。このCNNを用いたAI-OCR技術は、当社製品「THE 名刺管理 Business」のモバイルアプリの名刺画像の撮影時に利用されています。

一度の撮影で複数名刺を検出も可能です。

画像認識 CNN をモバイル端末での免許証識別へ応用

文字の認識だけでなく認識対象の抽出に応用することが可能です。当社が保有する従来の画像処理技術とCNNを合わせて利用することで、手持ちの免許証を背景にとらわれず免許証画像（外枠）のみを抽出します。このCNNを用いたAI-OCR技術は、当社製品「免許証認識ライブラリ」に利用されています。

物体認識・検出技術

物体認識・検出方式としてR-CNN、YOLO、SSD、M2Det、Center Net など様々な手法が提案されています。これらの手法を応用し、レイアウト理解やドキュメント画像内にある項目認識の精度向上を実現します。これらAI-OCR技術により、地紋、文字接触などの問題を解決することで、処理対象を拡大。従来困難であった帳票レイアウトに対応が可能となります。また、認識精度の向上だけでなく、認識項目の自動抽出を実現することで、難易度の高い帳票定義/テンプレート作成が不要となります

物体認識・検出技術を応用した領収書の認識例

RPN （Region Proposal Network）技術を応用し、領収証に記載されている領収年月日や金額、会社名などの認識対象を自動抽出し、項目ごとの文字認識を実現します。この物体認識・検出技術を用いたAI-OCR技術は、当社製品「Cloud OCR API」の領収書OCRに利用されています。

物体認識・検出技術を応用した図面の認識例

RPN （Region Proposal Network）技術を応用し、図面に記載されている注釈を認識対象として自動抽出し、文字認識を実現します。AI-OCR技術で紙面に記入された内容をテキストデータ化することで、図面のデータ化･Webマニュアル作成に活用できます。この物体認識を用いたAI-OCR技術は、アイビー・システム社製「図面認識ソリューション」に利用されています。

物体認識を帳票識別へ応用

物体検出の手法と従来OCR技術を応用し、画像内にある帳票を抽出し、識別を実施します。

物体認識を項目抽出・文字認識へ応用

物体検出の手法と従来OCR技術を応用し、画像内にある帳票から認識対象・項目を捉え、文字認識を実施します。

音声認識・言語翻訳 RNN（Recurrent Neural Network）

RNNは、主に音声認識･言語翻訳など、時系列データの認識に使われる深層学習のネットワークの総称です。AI-OCRでは、文字列画像を時系列データとして扱うことで、手書き単語認識（知識処理）に応用しています。文字列単位で学習により、文字単位での分割が困難な接触文字や活字と手書き文字が混在した文書などの認識精度を向上させることが可能です。

RNN で活字文字と手書き文字の混在認識を実現

RNNの時系列データとして扱う手法と従来OCR技術を応用したAI-OCRでは、従来、十分な性能が出し切れない「手書きフリーピッチ漢字の認識」、「活字と手書きの混在文書の認識精度の向上」が可能です。

CNN・RNNを文字列の自動抽出に応用

CNNやRNNと従来OCR技術を応用し、タブレットやスマホで撮影した画像に見られる歪み･傾き画像から文字列の抽出を実施します。また、従来技術では、認識領域の設定が困難な帳票等においても、容易に文字列の切り出しを実現します。

GAN（Generative adversarial networks）で学習データ不足の解消

AI-OCRでは、大量の学習データが必要になります。そこで、GANの活用で文字パターン･文字列の学習データを自動生成・学習を行い、学習データの不足を解消します。 GAN（敵対的生成ネットワーク）は、Generator（偽物生成側）とDiscriminator（贋識別側）の2つのニューラルネットワークで構成されている生成モデルのひとつで、元データから特徴を学習し、実在しないデータの生成や特徴に沿った類似データへの変換を行います。この関係を文字認識に例えると、Generator（偽物生成側）では、正しく認識される「活字」を元に類似した「手書き文字」を生成し、Discriminator（贋識別側）では、生成された「手書き文字」を深層学習で学習して、認識精度を向上させます。Generator（偽物生成側）とDiscriminator（贋識別側）とで、互いに切磋琢磨し、学習し、未知のデータ生成する手法で、各種学習データを生成します。

OCR（文字認識）に求められる深層学習（ディープラーニング）

OCR（文字認識）やドキュメント画像認識に求められる「深層学習（ディープラーニング）」は、単に人間を超えることではありません。例えば、計算処理能力においては、計算機は既に人間を超えており、移動能力においても、乗り物全般は既に人間を超えています。

一方、OCR（文字認識）やドキュメント画像認識の分野では、★型のマークを見て、「星」「星型」「スター」などの人間の主観的な情報を表すことが求められていますが、一般的な人間の処理能力を超えて、★型のマークを見て、「星型多角形といい。平面幾何学図形の一種で、多角形の各辺を延長し、得られた交点を結んだ図形である。」などの専門的な詳細情報までは求めていません。このようにOCR（文字認識）は、ちょうど人間程度「お手本は人間です。」が求められています。

従来OCRと深層学習によるOCRの違い

従来方式は、認識処理を行う際に何段階もの工程に分離し、それぞれの工程に最適化した学習処理を加えて精度向上を実現してきたが、深層学習方式では画像データから直接的にOCR結果を導き出す学習処理を実施して精度向上を実現しています。

深層学習（ディープラーニング）による学習データの必要量比較イメージ

※学習量の比較イメージです。実際の処理におけるデータではありません。

深層学習（ディープラーニング）によるOCR（文字認識）の課題

・学習データが大量に必要（各処理の組合わせ）
・最後の詰めのチューニングが困難（従って、カスタマイズも困難）
・誤りの発生原因の説明が不可能（ブラックボックス）

深層学習（ディープラーニング）の限界

UberでAI研究所の所長を務めたニューヨーク大学心理学者ゲイリー･マーカス教授にて発表された評論「Deep Learning: A Critical Appraisal」では、深層学習が直面している以下の課題をまとめて、深層学習の限界および深層学習に対する過大評価の危険性を主張しています。

引用：arXiv.org　Gary Marcus New York University「Deep Learning: A Critical Appraisal」
参照：MIT Technology Review「深層学習の過大評価は危険、ウーバーAI研究所の前所長が指摘」

深層学習による判断基準は？

次の画像からは、判断の曖昧さが見て取れます。左側から「猫」が描かれ、右側からは「犬」が描かれ、真ん中辺りではどちらに判断するか？おそらく個人差が出てくることが予想されます。深層学習により「猫」と判断された画像が人間の判断によっては「犬」と見えるケースが存在し、その結果に、他の人間が納得できるかどうか？は、容易に判断できません。このように単純な画像識別においても、深層学習は、その信頼性の確保や判断のロジックが見えないといった問題を抱えています。

画像引用：NHK「デザインあ」＃162　グラデーションうた

OCRによる判断基準は？

OCRの認識においても、判断基準の線引きは難しいケースが多く存在します。左側から「4」が描かれ、右側からは「9」が描かれ、真ん中辺りではどちらに判断するか？おそらくこの場合も、「猫」「犬」の場合と同様に、個人差が出てくることが予想されます。深層学習により「4」と判断された画像が人間の判断によっては「9」と見えるケースが存在することがあり、OCR運用状況によってもその判断指標は変わります。例えば、厳密なデータエントリーの運用であれば、人による最終判断を加え、確認・訂正処理する方法を選択したり、軽微な誤認識は許容することを前提に深層学習による判断を採用し、自動処理を優先する方法を選択するなど、システムの運用要件にフレキシブルに対応できる仕様が望ましいと考えられます。

深層学習（ディープラーニング）の限界例（Adversarial Example）

深層学習を欺くように作られたサンプル「Adversarial Example」を用いた例として、人の目には気づかない「ノイズ」データを加えるだけで、パンダにしか見えないのにも関わらず、誤って違う分類に識別されているケースが存在します。

引用:arXiv.org　Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy:Explaining and Harnessing Adversarial Examples

文字認識でも発生する深層学習（ディープラーニング）の誤動作例

文字認識でも上記の「Adversarial Example」と同様に、人の目には気が付きにくい画像の圧縮形式の違いで、文字認識が出来ないケースが発生。

深層学習の限界突破へ

MITとIBM、ディープマインドの研究チームによる最新論文では、「シンボリズム」と「コネクショニズム」の2つのアプローチを組み合わせた「ニューロシンボリック・コンセプト・ラーナー（NS-CL）」と呼ばれるコンピューター・プログラム（子どもが周囲を見回したり話したりするように、世界について学ぶプログラム）で、AIの将来の方向性を指し示しています

引用:MIT Technology Review「深層学習の限界突破へ、MITなどが「ハイブリッドAI」を開発」

AI-OCRも「ハイブリットAI」

AI-OCRにおいても、深層学習（ディープラーニング）の限界や課題の解決のため、当社は「シンボリズム」的なアプローチ（ルール的知識の蓄積）により精度向上を図ってきた「従来OCR技術」と「コネクショニズム」的なアプローチ（大量サンプルデータの蓄積）で精度向上を図る2つの手法を、最適な形【ハイブリッドOCR】で実現していきます。この【ハイブリッドOCR】技術は、当社のOCR製品・サービス「Cloud OCR API」「OCR Multi Entry Stage」「FormOCR」に順次搭載予定です。

「お手本は人間です。」

人間の脳においては、「右脳」「左脳」双方の相互作用により物事の判断基準を決めることが多くあると考えられます。ものを観る。文字や図形を読む。声や音、音楽を聞く。ことばを発する。うたを歌う。考察し、理解する。そして、あらゆる情報を知識として、経験として蓄積し、さまざまな場面にリアルタイムで活用していく。理想のコンピュータを追い求めようとするとき、いつもそこには人間の影があります。人間をお手本とした、理想のコンピュータやネットワークの開発は、さらに進化してきています。当社は創業当初からの事業コンセプト「お手本は人間です。」を開発ポリシーとして、「限りなく人間に近い知的ソフトウェアの創造」を目指し、AI OCRの分野でも進化を継続していきます。