活字OCRライブラリ v.10.2

非定型帳票・一般文書に対応した開発者向け活字OCR ライブラリ
活字OCRライブラリ
活字OCRライブラリは、各種業務帳票(請求書・納品書など)や企業内の書類(報告書・契約書など)をOCRでデータ化するための組込用ライブラリです。認識結果はOffice文書やPDFなどのファイルフォーマットで出力可能です。レイアウトが異なる帳票から日付や金額などの必要項目の値を共通設定で自動取得する「非定型帳票OCR」機能に対応しています。
販売管理システムや経費精算システムなどに組み込むことでデータ入力業務の効率化を実現します。

活字OCRライブラリの特長

特長
 
さまざまな文字を高精度に認識
長年にわたるOCRエンジンの開発で培われた技術力と洗練された言語解析辞書による知識処理で高精度認識を実現。また、認識できなかった文字や誤読した文字は即時に学習させることによりさまざまなフォントの認識精度を向上させます。
多言語の認識に対応
日本語・英語・中国語・韓国語の認識に標準対応。オプション機能として、アジア圏言語(タイ語・ベトナム語・マレー語・インドネシア語)およびヨーロッパ圏言語[欧米語](ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語)に対応可能です。
読みにくい文字も認識

一般的にはよみにくいとされるイタリック文字、日本語縦書き内の横書き英字なども認識可能です。

(例)
イタリック
縦書き内横英字

 

低品質な文字も認識

「Google Cloud のCloud Vision API」と連携し、低品質な文字も認識が可能です。

認識可能な文字
※Google Cloud、Google Cloud Vision APIは、Google LLC の商標または登録商標です。
※AI-OCRはオプションとなります。ご利用の際はインターネット接続が必要です。
■その他の認識関連機能
・ 認識言語自動判別(日本語・英語)
・ 文字種指定
・ 表認識データ区切り設定(罫線位置・点線有無など)
・ ユーザー辞書・文字パターン辞書(5000文字)
・ WinReaer PROの辞書使用が可能
認識可能な帳票

各種業務帳票(請求書・納品書など)や企業内の書類(報告書・契約書など)をOCRでデータ化します。
同じ種類の帳票はレイアウトが異なる場合も共通の設定で認識が可能です(非定型帳票OCR)。

活字OCRライブラリの特徴

 

非定型帳票サンプル① 複雑な構造の明細行の認識
new

項目名を表すヘッダ行の構造を理解し、明細行を検出する認識の精度が向上しました。これにより、今まで対応が難しかった複雑な構造の明細行の値も認識可能になります。

new

非定型帳票サンプル② 下線情報を利用した値の取得
new

帳票内の下線情報を検出し、同一の下線上にある離れた値も1つの項目として取得します。

下線

 

非定型帳票サンプル③ 項目名と値の距離の許容範囲を拡大
NEW

項目名と値の位置が離れている場合や密接する場合でも、項目名と値を紐づけて取得することが可能です。

請求書

 

非定型帳票サンプル④ 項目名が表記されていない値に適切な項目名を紐づけ
NEW

項目名が表記されていない値を取得した場合、自動で適切な項目名と紐づけます。項目名の候補が複数ある場合には、自動で優先順位判定を行います。

項目名がない値

請求書対応プラグイン搭載

標準対応帳票として、請求書に対応したプラグインを搭載しています。インボイス制度により厳格化される必須項目のチェックやデータ修正にかかる業務負担を削減します。

請求書

 

お問い合わせお待ちしております
 
お問い合わせ
お問い合わせ
画像補正機能

傾き補正やトリミング機能、色補正などの画像補正機能でカメラ撮影画像や低品質の画像も高精度にOCR処理を実現します。

画像補正機能

■ 画像補正の基本機能
・ 背景ノイズ除去
・ 傾き補正・用紙方向判別・歪み補正
・ カメラ画像手振れ補正
・ 色彩補正(カメラ撮影時の照明による影響を低減しオリジナルに近い色情報を再現)
元原稿のレイアウトを再現

当社独自のレイアウト解析技術により、非定型の文書から【文字領域】【表領域】【画像領域】を自動判定し、領域情報を取得できます。これにより面倒なパラメータを設定することなく高精度な文字認識を実現。元原稿をリアルに再現させることが可能です。

元原稿のレイアウト再現

 

■ その他のレイアウト解析機能
・ 座標指定、行矩形を利用した文字認識
・ ドキュメントの最初の一行を認識してその結果を取得
・ 表領域を認識して表の構造を取得
・ セル単位の文字認識、セル背景色の出力、表領域のセル結合出力
・ 認識に最適な画像へ自動で拡大
ファイル出力

豊富なファイル出力でさまざまな用途に対応。レイアウトを再現した出力、ルビ文字、英数文字の半角変換、スペース出力などのパラメータを用いたテキスト出力が可能です。

対応ファイル形式

テキスト、Unicodeテキスト、PDF(通常・透明テキスト付き・透明テキスト付きMRC圧縮)、CSV、RTF、XLSX、DOCX、PPTX、RTF、HTML、JSON(非定型帳票時のみ)の出力に対応。

対応ファイル形式

高圧縮透明テキストつきPDFファイル出力に対応

文書中の画像部分と文字部分をレイヤ構造に分けて効率的に圧縮する「MRC圧縮」方式を使った高圧縮透明テキスト付きPDFファイルの出力機能を搭載。PDF内での文字の表示品質と圧縮率が向上します。電子書籍端末での利用にも最適。

透明テキストPDF

リジェクト機能

リジェクト(誤読の可能性が高い文字を抽出)機能を搭載。誤りの可能性がある文字を抽出できます。専用辞書を搭載しているため、言語処理を組み合わせたリジェクト、リジェクトレベルを変更することも可能です。

リジェクト画面
Cloud API版をリリース

対応プラットフォームとして従来のWindows版に加え新たにCloud API版をリリース。専用OCRサーバを用意することなく、スマートフォンやタブレットなどと連動した開発が可能となります。

 

料金プラン
 
開発キット
活字OCRライブラリ v.10.0 開発キット 500,000円 + 税
活字OCRライブラリ v.10.0 開発キット 年間保守サービス 100,000円 + 税
活字OCRライブラリ v.10.0 ServerOS対応版 開発キット 750,000円 + 税
活字OCRライブラリ v.10.0 ServerOS対応版 開発キット 年間保守サービス 150,000円 + 税
+
オプション
タイ語認識オプション 定価 200,000円 + 税
マレー語認識オプション 定価 200,000円 + 税
ベトナム語認識オプション 定価 200,000円 + 税
インドネシア語認識オプション 定価 200,000円 + 税
タイ語認識オプション 年間保守サービス 定価 40,000円 + 税
マレー語認識オプション 年間保守サービス 定価 40,000円 + 税
ベトナム語認識オプション 年間保守サービス 定価 40,000円 + 税
インドネシア語認識オプション 年間保守サービス 定価 40,000円 + 税
ヨーロッパ圏言語[欧米語]認識オプション お問い合わせください
ヨーロッパ圏言語[欧米語]認識オプション 年間保守サービス お問い合わせください

 

■ ライセンスについて
・本ライブラリを使用した商品の配布については別途ライセンス費用が必要となります。
・年間保守サービスは初年度必須となります。商品購入時にお申し込みください。
・認識オプションの年間保守サービスは、各言語毎に加入が必要です。
仕様
 
動作環境
対応プラットフォーム Windows / Cloud OCR API
OS 【こちら】をご覧ください
仮想化環境 【こちら】をご覧ください
開発環境 VC++ 17.0 / 16.0 / 15.0 / 14.0 / 12.0
C# (.NET Framework 4.8 / 4.7 / 4.6.2)
その他 アクティベーションを行うためにインターネット接続環境が必要
※インターネットに接続できない場合は別PCにて代理認証が可能

 

仕様
入力
画像ファイル形式 BMP・TIFF/マルチページTIFF(非圧縮、G3/G4圧縮、LZW圧縮、PackBits)・PNG・JPEG・PDF(画像のみ)・メモリ上の画像データ(DIB形式)
※Cloud APIはJPEG/TIFF(シングル、G4圧縮)
画像サイズ 最大A3サイズ、カラー対応
画像解像度 スキャナ画像300~600dpi(Cloud APIは300dpiまで)、カメラ画像4200万画素まで
画像の傾き補正 自動(±20度以内)・手動
画像の回転 90度・180度・270度・用紙方向自動判別機能
携帯電話/デジタルカメラの撮影条件 機種:500万画素以上で接写可能な機種
撮影モード:マクロ(接写)機能を有効にする
撮影環境:原稿が歪曲しないように、平らにして写す
原稿と背景の色の差が大きくなる場所に置いて写す
背景に余計なものが入らないように写す
光の反射が入らないように写す
※画像の歪み補正は、水平・垂直線に対する30度以内の歪みに有効となります。

 

認識・出力
認識対象言語 日本語・英語・中国語(簡体・繁体)・韓国語
【アジア圏言語認識オプション】
タイ語・マレー語・ベトナム語・インドネシア語
レイアウト解析 原稿種別の選択:自動判別・表領域・文章領域・図領域
出力画像形式 BMP・TIFF(非圧縮・G3・G4圧縮・LZW圧縮/マルチ・シングル)・JPEG・PDF(1.3以降) 
※TIFFの1bitパレット画像、JPEG圧縮は非対応
認識結果文字コード 日本語:Shift JIS、英語:ASCII、中国語(簡体字):GB2312-80、中国語(繁体字):Big-5、韓国語(ハングル):KSC5601、マレー語、ベトナム語、タイ語、インドネシア語 :UTF-16
※Cloud APIはUTF-8(全言語共通)
改行コードの挿入:ブロック単位・行単位
スペースコードの出力:しない・する(日本語の場合のみ)
認識最大文字数 2万/頁(改行、タブ等含む)
出力形式 テキスト・Unicodeテキスト・RTF・DOCX・XLSX・PPTX・CSV・HTML・PDF(通常・透明テキスト付き・MRC圧縮)
※非定型時はJSON形式のみ
※Cloud APIはJSON形式のみ
※中国語・韓国語はUnicodeテキスト、PDF形式(通常・透明テキスト付き・MRC圧縮)・RTF・DOCX・XLSX・PPTXのみ
※通常は1ページ分、マルチページTIFF/PDFの場合は複数ページ分可能

※非定型帳票OCRはオプションとなります。
※キー&バリュー方式で対応できない帳票フォーマットもございます。

 

各認識言語詳細仕様
● 日本語認識部
 
認識対象文字種 漢字(JIS第1水準、第2水準文字)、ひらがな、カタカナ、アルファベット、数字、記号等約6,700文字
認識書体 明朝体、ゴシック体、教科書体等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 縦書き・横書き自動判別、文字サイズ混在文書対応
ユーザー学習辞書 最大5000個/ファイル

 

● 英語認識部
 
認識対象文字種 アルファベット、数字、記号
認識書体 Arial、Helvetica、Verdana等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 文字サイズ混在文書対応

 

● 中国語/韓国語認識部
 
認識対象文字種 中国語(簡体字)6763字(GB2312-80コード対応)
中国語(繁体字)13053字(Big-5コード対応)
韓国語Hangul 2350字/Hanja 4888字(KSC5601コード対応)
認識書体 中国語(簡体字) :宋体、倣宋体、楷書体、黒体等マルチフォント対応
中国語(繁体字) :細明体、新細明体、標楷体等マルチフォント対応
韓国語(ハングル):Batang, Gulim, Dotum等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 文字サイズ混在文書対応

 

● タイ語認識部
 
認識対象文字種 タイ語
認識書体 マルチフォント対応
文字サイズ 12~16pt, 300~600dpi

 

● ベトナム語認識部
 
認識対象文字種 ベトナム語
認識書体 マルチフォント対応
文字サイズ 10~14pt, 300~400dpi

 

● マレー語認識部
 
認識対象文字種 マレー語
認識書体 マルチフォント対応
文字サイズ 1.8mm~15mm(5~45pt) 5ptは600dpiのみ

 

● インドネシア語認識部
 
認識対象文字種 インドネシア語
認識書体 マルチフォント対応
文字サイズ 1.8mm~15mm(5~45pt) 5ptは600dpiのみ

 

お問い合わせ
 
お問い合わせ・ご相談はお気軽に
お問い合わせ

 

 

TOP
CONTACT
お問い合わせ
製品・サービスについてお気軽にお問い合わせください