活字OCRライブラリ v.9.5
活字OCRライブラリ v.9.5
「活字OCRライブラリ v.9.5」は、非定型の活字文書の画像に対して文字認識を行い、認識した文字コードを出力する開発者向けOCRライブラリです。 本ライブラリを活用することで、お客様のアプリケーションや業務システムなどと連携し、高精度な認識結果をOffice文書や透明テキスト付きPDFなどのファイルフォーマットで出力できます。
OCR処理された文書は、文書管理システム(ファイリングシステム)やFAXシステムなどにおいて、全文フリーワード検索を可能とします。OCRの活用により、文書の電子化における基本要件のひとつである「検索性の向上」を効率的に行なうことが可能となります。
活字OCRライブラリ v.9.5 製品概要
多言語対応(アジア圏言語強化)
高精度文字認識エンジン
国内最高峰の高精度認識エンジンを搭載しています。低品質文字の認識を可能とし、多種多様なドキュメントのOCR処理を実現します。また、認識エンジンは「速度優先」「通常」「精度優先」のレベル設定が可能なため、様々な運用スタイルにフレキシブルに対応します。
基本機能
1.日本語・英語・中国語(簡体字/繁体字)・韓国語の認識が可能です。日本語、英語は混在認識が可能です。
2.日本語は、JIS第1水準およびJIS第2水準全ての漢字の認識が可能です。
3.中国語は、簡体字および繁体字の認識が可能です。
4.縦書き、横書きの自動判別が可能です。
5.文字サイズ混在文書に対応可能です。
6.認識結果の文字数、外接する矩形座標、候補文字、信頼度データなどの様々な情報を取得することが可能です。
7.日本語/英語の斜体(イタリック)文字の認識が可能です。*1
8.日本語の縦書き中に横書きで挿入された英字の認識が可能です。
9.デジカメ画像(デジタルカメラやスマートフォンで撮影された画像)専用の認識エンジンを搭載。ピンボケした低品質の画像も高精度に認識することができます。
10.つぶれ/かすれ文字で実績のある認識エンジンを搭載。写真モード(文字/写真モード)の設定で白黒スキャンしたカタログ等にみられる文字の劣化を補正して認識することができます。*2
11.その他の認識性能向上
・日本語文書中の英文での空白(スペース)部分の再現性が向上しました。
(※日本語/日欧混在モード認識時)
・縦書きの約物の認識精度が向上しました。
・括弧(「」『』の2種類)の認識精度が向上しました。
・JIS第2水準の漢字を含む全文字種の特に低品質文字の高精度な認識を可能にしました。
新機能
1.アジア圏言語の一部を認識言語オプションとして追加しました。
2.英語/中国語/韓国語の認識精度が向上しました。
・新英語認識エンジンを搭載し、認識精度が向上しました。
・中国語と英語が混在する文書の認識処理が可能になりました。
・韓国語と英語が混在する文書の認識処理が可能になりました。
3.外国言語のレイアウト解析精度が向上しました。
4.マルチプロセスに対応し、サーバー利用時の処理効率向上が可能になりました。
オプション
1.アジア圏言語認識にオプション対応可能です。
対応言語:タイ語・マレー語・ベトナム語・インドネシア語
2.ヨーロッパ圏言語[欧米語]認識にオプション対応可能です。
対応言語:ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語
知識処理・学習機能
高精度レイアウト解析
当社独自のレイアウト解析技術により、非定型の文書から【文字領域】【表領域】【画像領域】を自動判定し、領域情報を取得できます。これにより、面倒なパラメータを設定することなく高精度な文字認識を実現し、元原稿をリアルに再現させることが可能です。
基本機能
1.文字領域、表領域、画像領域の自動判別が可能です。
2.座標指定、行矩形を利用した文字認識が可能です。
3.ドキュメントの最初の一行を認識してその結果を取得することが可能です。タイトルや見出しの取得に活用できます。
4.表領域を認識し、表の構造を取得することが可能です。
5.セル単位の文字認識、セル背景色の出力、表領域のセル結合出力が可能です
画像入力・豊富な画像補正
OCR処理に必要な画像補正機能を搭載し、カメラ撮影画像や低品質の画像においても、高精度なOCR処理を実現します。
基本機能(入力)
1.BMP、TIFF、JPEG、PNG、PDFファイルの読み込みが可能です。カラー画像に対応しています。
2.複数ページの取り込みが可能です。(PDF・マルチページTIFF)
3.メモリ上の画像データ(DIB形式)の読み込みが可能です。
基本機能(補正)
1.背景ノイズ除去機能・・・読み込んだ画像のノイズ除去を行います。
2.傾き補正機能・・・読み込んだ画像の傾きを自動補正します。見開き分割線(中心線)を検出し、文字が分割されて誤認識する現象を軽減します。
3.用紙方向補正機能・・・画像を適切な方向に自動回転(90,180,270度回転)します。
4.歪み補正機能・・・水平、垂直の歪みを自動補正します。行探知でゆがみを検出し、画像全体を補正することで、本の見開きなどで、行が歪んでしまった画像を補正します。
5.手ブレ機能・・・カメラ撮影画像の手ブレを自動補正します。
6.トリミング機能・・・画像から文書部分だけを自動でトリミングします。*3
7.色彩補正機能・・・カメラ撮影時の照明による影響を低減し、オリジナルに近い色情報を再現します。
豊富なファイル出力
テキスト、Unicodeテキスト、Officeフォーマット(word/Excel/PowerPoint)、PDF、HTML、RTF、XPS、CSVといった豊富なファイル出力で、様々な用途に対応します。
基本機能
1.レイアウトを再現した出力が可能です。
2.透明テキスト付きPDFファイル出力が可能です。
3.ルビ文字の出力、英数文字の半角文字への変換出力、スペースコードの出力など、様々なパラメータを用いて、用途に適したテキスト出力が可能です。
4.ブロック単位および行単位で改行コードの挿入が可能です。
5.図領域の出力は、画像解像度、画像圧縮度などを設定した出力が可能です。
6.Excelファイルでの出力時に、数字のみのセルを数値化して出力することが可能です。
7.Word形式については、テキストボックスでない段組み状態での再現が可能です。
8.Excel形式については、表のセル内にある背景色の再現が可能です。
9.PDF形式については、文書中の画像部分と文字部分をレイヤ構造に分けて効率的に圧縮する”MRC圧縮”方式を使った高圧縮透明テキスト付きPDFファイルの出力を搭載。PDF内での文字の表示品質と圧縮率が向上しているため電子書籍端末での利用にも最適です。*4
10.スマートフォンやタブレットでの閲覧に最適化したOfficeフォーマット(*.docx/xlsx/pptx)出力を搭載。
11.縦書き中の英文字、縦中横文字をWordへ出力可能です。
電子書籍対応
大量データの電子化支援
マルチプロセス対応
.NET用インターフェース対応
価格
■ 開発キット
活字OCRライブラリ v.9.5 開発キット | 定価 500,000円 + 税 |
活字OCRライブラリ v.9.5 開発キット 年間保守サービス | 定価 100,000円 + 税 |
活字OCRライブラリ v.9.5 ServerOS対応版 開発キット | 定価 750,000円 + 税 |
活字OCRライブラリ v.9.5 ServerOS対応版 開発キット 年間保守サービス | 定価 150,000円 + 税 |
■ オプション
タイ語認識オプション | 定価 200,000円 + 税 |
マレー語認識オプション | 定価 200,000円 + 税 |
ベトナム語認識オプション | 定価 200,000円 + 税 |
インドネシア語認識オプション | 定価 200,000円 + 税 |
タイ語認識オプション 年間保守サービス | 定価 40,000円 + 税 |
マレー語認識オプション 年間保守サービス | 定価 40,000円 + 税 |
ベトナム語認識オプション 年間保守サービス | 定価 40,000円 + 税 |
インドネシア語認識オプション 年間保守サービス | 定価 40,000円 + 税 |
ヨーロッパ圏言語[欧米語]認識オプション | お問い合わせください |
ヨーロッパ圏言語[欧米語]認識オプション 年間保守サービス | お問い合わせください |
■ ライセンス
本ライブラリを使用した商品の配布については別途ライセンス費用が必要となります。
ライセンス費用については、当社営業担当へお問い合わせください。
※年間保守サービスは初年度必須となります。商品購入時にお申し込みください。
※認識オプションの年間保守サービスは、各言語毎に加入が必要です。
※税額は商品引き渡しおよび役務の提供時における税率に基づいて算出される税額となります。
注釈
*1 | 日本語は行単位での処理となりますので、行中に標準と斜体の文字が混在している場合は認識精度が低下する場合があります。 |
*2 | 本機能は日本語/中国語/韓国語/マレー語/ベトナム語/インドネシア語の認識時のみ有効です。 |
*3 | 領域を自動抽出する機能は、文書部分とそれ以外の背景の色が同じ場合など、撮影条件等によって正しく処理できない場合があります。 |
*4 | 出力する原稿によっては、表示品質や圧縮率が向上されない場合があります。 |
*5 | 取り込んだ画像やテキストのデータは、私的利用の範囲内でご使用ください。この範囲を超えるご使用は権利者の承諾が必要です。 |
*6 | フォーマット出力機能が形式によってはマルチプロセス対応していません。 |
*7 | .NET用インターフェースは一部提供されない機能があります。 |