メディアドライブ製品は、OCR技術をはじめに先端技術にいたる多彩なライブラリで高付加価値システムの実現をサポートします。



活字文書OCRライブラリ v.9.5

活字文書OCRライブラリ v.9.5

「活字文書OCRライブラリ v.9.5」は、非定型の活字文書の画像に対して文字認識を行い、認識した文字コードを出力する開発者向けOCRライブラリです。 本ライブラリを活用することで、お客様のアプリケーションや業務システムなどと連携し、高精度な認識結果をOffice文書や透明テキスト付きPDFなどのファイルフォーマットで出力できます。
OCR処理された文書は、文書管理システム(ファイリングシステム)やFAXシステムなどにおいて、全文フリーワード検索を可能とします。OCRの活用により、文書の電子化における基本要件のひとつである「検索性の向上」を効率的に行なうことが可能となります。


活字文書OCRライブラリ v.9.5 製品概要

活字文書OCRライブラリ v.9.5 は、日本語やその他言語の文字認識を行うDLL(ダイナミックリンクライブラリ)タイプのライブラリです。「高精度レイアウト解析」機能と「豊富なファイル出力」機能を標準搭載しています。
活字文書OCRライブラリ v.9.5 日本語等の文書画像読込、レイアウト解析・文字認識・データ出力

多言語対応(アジア圏言語強化)

日本語・英語・中国語・韓国語の認識に標準対応。オプション機能として、アジア圏言語(タイ語・ベトナム語・マレー語・インドネシア語)およびヨーロッパ圏言語[欧米語](ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語)に対応可能です。

日本語・英語・中国語・韓国語・タイ語・マレー語・ベトナム語・インドネシア語 OCR

高精度文字認識エンジン

国内最高峰の高精度認識エンジンを搭載しています。低品質文字の認識を可能とし、多種多様なドキュメントのOCR処理を実現します。また、認識エンジンは「速度優先」「通常」「精度優先」のレベル設定が可能なため、様々な運用スタイルにフレキシブルに対応します。


基本機能

1.日本語・英語・中国語(簡体字/繁体字)・韓国語の認識が可能です。日本語、英語は混在認識が可能です。
2.日本語は、JIS第1水準およびJIS第2水準全ての漢字の認識が可能です。
3.中国語は、簡体字および繁体字の認識が可能です。
4.縦書き、横書きの自動判別が可能です。
5.文字サイズ混在文書に対応可能です。
6.認識結果の文字数、外接する矩形座標、候補文字、信頼度データなどの様々な情報を取得することが可能です。
7.日本語/英語の斜体(イタリック)文字の認識が可能です。*1
活字文書OCRライブラリ 日本語/英語の斜体(イタリック)文字対応


8.日本語の縦書き中に横書きで挿入された英字の認識が可能です。
活字文書OCRライブラリ 日本語縦書き中の横書き英字対応


9.デジカメ画像(デジタルカメラやスマートフォンで撮影された画像)専用の認識エンジンを搭載。ピンボケした低品質の画像も高精度に認識することができます。
活字文書OCRライブラリ デジカメ画像対応


10.つぶれ/かすれ文字で実績のある認識エンジンを搭載。写真モード(文字/写真モード)の設定で白黒スキャンしたカタログ等にみられる文字の劣化を補正して認識することができます。*2
活字文書OCRライブラリ つぶれ/かすれ文字対応


11.その他の認識性能向上
・日本語文書中の英文での空白(スペース)部分の再現性が向上しました。
(※日本語/日欧混在モード認識時)
・縦書きの約物の認識精度が向上しました。
・括弧(「」『』の2種類)の認識精度が向上しました。
・JIS第2水準の漢字を含む全文字種の特に低品質文字の高精度な認識を可能にしました。


新機能
1.アジア圏言語の一部を認識言語オプションとして追加しました。
2.英語/中国語/韓国語の認識精度が向上しました。
・新英語認識エンジンを搭載し、認識精度が向上しました。
・中国語と英語が混在する文書の認識処理が可能になりました。
・韓国語と英語が混在する文書の認識処理が可能になりました。
3.外国言語のレイアウト解析精度が向上しました。
4.マルチプロセスに対応し、サーバー利用時の処理効率向上が可能になりました。


オプション
1.アジア圏言語認識にオプション対応可能です。
対応言語:タイ語・マレー語・ベトナム語・インドネシア語
2.ヨーロッパ圏言語[欧米語]認識にオプション対応可能です。
対応言語:ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語



知識処理・学習機能

長年にわたるOCRエンジンの開発で培われた技術力と、洗練された言語解析辞書による知識処理で、高精度認識を実現します。また、即時に対応可能な【学習機能】を搭載しています。認識できなかった文字(画像)や誤読した文字(画像)を即時に学習させることで、様々なフォントの認識精度が向上します。

高精度レイアウト解析

当社独自のレイアウト解析技術により、非定型の文書から【文字領域】【表領域】【画像領域】を自動判定し、領域情報を取得できます。これにより、面倒なパラメータを設定することなく高精度な文字認識を実現し、元原稿をリアルに再現させることが可能です。


基本機能

1.文字領域、表領域、画像領域の自動判別が可能です。
活字文書OCRライブラリ レイアウト解析


2.座標指定、行矩形を利用した文字認識が可能です。
3.ドキュメントの最初の一行を認識してその結果を取得することが可能です。タイトルや見出しの取得に活用できます。
4.表領域を認識し、表の構造を取得することが可能です。
5.セル単位の文字認識、セル背景色の出力、表領域のセル結合出力が可能です



画像入力・豊富な画像補正

OCR処理に必要な画像補正機能を搭載し、カメラ撮影画像や低品質の画像においても、高精度なOCR処理を実現します。


基本機能(入力)
1.BMP、TIFF、JPEG、PNG、PDFファイルの読み込みが可能です。カラー画像に対応しています。
2.複数ページの取り込みが可能です。(PDF・マルチページTIFF)
3.メモリ上の画像データ(DIB形式)の読み込みが可能です。


基本機能(補正)
1.背景ノイズ除去機能・・・読み込んだ画像のノイズ除去を行います。
2.傾き補正機能・・・読み込んだ画像の傾きを自動補正します。見開き分割線(中心線)を検出し、文字が分割されて誤認識する現象を軽減します。
3.用紙方向補正機能・・・画像を適切な方向に自動回転(90,180,270度回転)します。
4.歪み補正機能・・・水平、垂直の歪みを自動補正します。行探知でゆがみを検出し、画像全体を補正することで、本の見開きなどで、行が歪んでしまった画像を補正します。
5.手ブレ機能・・・カメラ撮影画像の手ブレを自動補正します。
6.トリミング機能・・・画像から文書部分だけを自動でトリミングします。*3
7.色彩補正機能・・・カメラ撮影時の照明による影響を低減し、オリジナルに近い色情報を再現します。
活字文書OCRライブラリ 色彩補正機能




豊富なファイル出力

テキスト、Unicodeテキスト、Officeフォーマット(word/Excel/PowerPoint)、PDF、HTML、RTF、XPS、CSVといった豊富なファイル出力で、様々な用途に対応します。
活字文書OCRライブラリ 出力フォーマット


基本機能
1.レイアウトを再現した出力が可能です。
2.透明テキスト付きPDFファイル出力が可能です。
3.ルビ文字の出力、英数文字の半角文字への変換出力、スペースコードの出力など、様々なパラメータを用いて、用途に適したテキスト出力が可能です。
4.ブロック単位および行単位で改行コードの挿入が可能です。
5.図領域の出力は、画像解像度、画像圧縮度などを設定した出力が可能です。
6.Excelファイルでの出力時に、数字のみのセルを数値化して出力することが可能です。
7.Word形式については、テキストボックスでない段組み状態での再現が可能です。
8.Excel形式については、表のセル内にある背景色の再現が可能です。
活字文書OCRライブラリ Excel再現性


9.PDF形式については、文書中の画像部分と文字部分をレイヤ構造に分けて効率的に圧縮する”MRC圧縮”方式を使った高圧縮透明テキスト付きPDFファイルの出力を搭載。PDF内での文字の表示品質と圧縮率が向上しているため電子書籍端末での利用にも最適です。*4
活字文書OCRライブラリ PDF出力


10.スマートフォンやタブレットでの閲覧に最適化したOfficeフォーマット(*.docx/xlsx/pptx)出力を搭載。
11.縦書き中の英文字、縦中横文字をWordへ出力可能です。



電子書籍対応

電子書籍フォーマットに対応。認識結果をEPUB 3.0形式で出力できます。EPUBは国際電子出版フォーラムで策定された電子書籍フォーマットです。スマートフォンやタブレット端末で閲覧する際に、各端末のサイズにあわせてレイアウトが調整されるため電子書籍の作成にご利用いただけます。*5
活字文書OCRライブラリ EPUB出力

大量データの電子化支援

リジェクト(誤読の可能性が高い文字を抽出する)機能を搭載。誤りの可能性がある文字を抽出できます。専用辞書を搭載しているため、言語処理を組み合わせてリジェクトさせることも可能です。リジェクトレベル(抽出する度合)は任意に変更することが可能です。大量のデータを電子化する際に、データ修正の効率化が実現できます。

活字文書OCRライブラリ リジェクト機能

マルチプロセス対応

OCR処理に適したマルチプロセス対応により、処理速度の向上と安定した動作を実現します。*6

.NET用インターフェース対応

.NET対応プログラムを容易に開発できるインターフェースを搭載。.NET対応の開発言語(C#、VB)から本ライブラリが利用しやすくなります。C#用のサンプルプログラムのソースコードも含まれます。*7

価格

■ 開発キット

活字文書OCRライブラリ v.9.5 開発キット 定価 500,000円 + 税
活字文書OCRライブラリ v.9.5 開発キット 年間保守サービス 定価 100,000円 + 税
活字文書OCRライブラリ v.9.5 ServerOS対応版 開発キット 定価 750,000円 + 税
活字文書OCRライブラリ v.9.5 ServerOS対応版 開発キット 年間保守サービス 定価 150,000円 + 税


■ オプション

タイ語認識オプション 定価 200,000円 + 税
マレー語認識オプション 定価 200,000円 + 税
ベトナム語認識オプション 定価 200,000円 + 税
インドネシア語認識オプション 定価 200,000円 + 税
タイ語認識オプション 年間保守サービス 定価 40,000円 + 税
マレー語認識オプション 年間保守サービス 定価 40,000円 + 税
ベトナム語認識オプション 年間保守サービス 定価 40,000円 + 税
インドネシア語認識オプション 年間保守サービス 定価 40,000円 + 税
ヨーロッパ圏言語[欧米語]認識オプション お問い合わせください
ヨーロッパ圏言語[欧米語]認識オプション 年間保守サービス お問い合わせください


■ ライセンス
本ライブラリを使用した商品の配布については別途ライセンス費用が必要となります。
ライセンス費用については、当社営業担当へお問い合わせください。


※年間保守サービスは初年度必須となります。商品購入時にお申し込みください。
※認識オプションの年間保守サービスは、各言語毎に加入が必要です。
※税額は商品引き渡しおよび役務の提供時における税率に基づいて算出される税額となります。



注釈

*1 日本語は行単位での処理となりますので、行中に標準と斜体の文字が混在している場合は認識精度が低下する場合があります。
*2 本機能は日本語/中国語/韓国語/マレー語/ベトナム語/インドネシア語の認識時のみ有効です。
*3領域を自動抽出する機能は、文書部分とそれ以外の背景の色が同じ場合など、撮影条件等によって正しく処理できない場合があります。
*4出力する原稿によっては、表示品質や圧縮率が向上されない場合があります。
*5取り込んだ画像やテキストのデータは、私的利用の範囲内でご使用ください。この範囲を超えるご使用は権利者の承諾が必要です。
*6フォーマット出力機能が形式によってはマルチプロセス対応していません。
*7.NET用インターフェースは一部提供されない機能があります。