OCRソフトウェアメーカー「メディアドライブ株式会社」は、認識精度の高い活字文書OCRや手書帳票OCR商品をご提供いたします。



e.Document Sorter

機能-罫線識別

罫線識別は帳票OCRソフトウェアで実績のある帳票識別アルゴリズムを搭載。罫線情報を点や線の特徴としてとらえた高精度な識別を実現します。画像補正機能により、文書の傾きや伸縮にも柔軟に対応します。


適用事例1

文書や帳票に含まれる「罫線」・「矩形」をキーに罫線識別を実施し、あらかじめモデル登録された帳票と罫線情報が合致する文書や文書を自動抽出します。

(例)「注文書」「OCR注文書」「物品受領書」を罫線情報で分類

e.Document Sorter 罫線識別 適用事例

識別対象領域

罫線識別の対象となる領域(文書全体/任意指定位置)の設定が可能です。

e.Document Sorter 罫線識別 識別対象領域

モデル設定

罫線識別のモデル登録は簡単に設定可能です。ベースとなる画像を選択し、任意の名称を付けるだけです。座標値や線分の長さなど細かい設定は不要です。

e.Document Sorter 罫線識別 モデル設定

罫線認識

抽出可能な罫線の長さ5mm以上となります。
点線は罫線として抽出します。斜め線は罫線として抽出できません。
L字またはクロスした部分を使用しているため、直線のみの表は抽出できません。

e.Document Sorter 罫線識別 罫線認識

認識交点

識別可能な交点の種類は9種類です。角丸の表も抽出します。

e.Document Sorter 罫線識別 認識交点

振り分け精度

識別時に識別対象画像と登録モデルが以下の範囲のものを識別対象とします。
1.画像の縦横比が80%~120%の範囲
2.特徴矩形の縦横比が60%~140%の範囲
原稿サイズの縦横比で20%を超えると不一致、特徴矩形の縦横比が40%を超えると不一致とします。

e.Document Sorter 罫線識別 振り分け精度

補正機能

正立補正機能により、画像全体の傾きは補正されます。
画像内の罫線情報については、外側多角形を抽出し、傾き10度~-10度の範囲で傾き補正されます。
斜め線は識別対象から外れますが、1.5度~15度の範囲で補正し、検出します。 検出可能な罫線の角度は罫線形状により変化します。長い罫線は1.5度、短い罫線は15度となります。
e.Document Sorter 罫線識別 補正機能

識別サンプル

交点が少なすぎるまたは全く無い画像や罫線情報が上下左右対象で特徴値が低い画像、罫線仕様を満たしていない画像に対しては適切な罫線識別が実施できません。この場合、罫線情報による分類ではなく、OCR識別やバーコード識別による分類をお勧めします。
e.Document Sorter 罫線識別 識別サンプル