OCRソフトウェアメーカー「メディアドライブ株式会社」は、認識精度の高い活字文書OCRや手書帳票OCR商品をご提供いたします。



HOME > トピックス > 2015 > 「活字文書OCRライブラリ v.9.0」を販売開始

「活字文書OCRライブラリ v.9.0」を販売開始

メディアドライブ株式会社
2015年11月25日

メディアドライブ株式会社(代表取締役社長:松村 博 本社:東京都中央区)は、Windowsアプリケーションやシステムなどに、活字文書OCR機能を組み込むためのライブラリ「活字文書OCRライブラリ v.9.0」を2015年11月30日より販売します。

「活字文書OCRライブラリ v.9.0」は、非定形型の活字文書の画像に対して文字認識を行い、認識した文字コードを出力するDLL(ダイナミックリンクライブラリ)です。本ライブラリを活用することで、お客様のアプリケーションや業務システムなどと連携し、日本語・英語・中国語(簡体字/繁体字)・韓国語の高精度な認識結果をOffice文書や透明テキスト付きPDFなどのファイルフォーマットとして出力することができます。

新バージョンとなる「活字文書OCRライブラリ v.9.0」では、認識エンジンの性能・画像補正処理・レイアウト解析性能・Officeファイル出力再現性の強化を改めて行い、基本性能の底上げを行いました。また電子書籍作成向けに行歪み画像補正機能を新たに搭載した他、見開きページ画像に特化した画像補正を強化いたしました。もちろん認識結果をEPUB(国際電子出版フォーラムで策定された電子書籍フォーマット)形式で出力していただくことが可能です。
大量データの電子化支援については、認識性能の向上とは別に、リジェクト(誤読の可能性が高い部分を抽出する)機能の性能向上を図りましたので、さらにデータの修正を効率的に行っていただくことが可能になりました。
お客さまのWindows用アプリケーションやシステムなどに、高精度な活字文書OCR機能を追加することができますので、この機会に是非ともご検討ください。



■発売日・ラインナップ・価格

2015年11月30日(月)発売予定

活字文書OCRライブラリ v.9.0

商品名

定価(税込)

活字文書OCRライブラリ v.9.0 開発キット

定価500,000円(税込540,000円)

年間保守サービス

定価100,000円(税込108,000円)

活字文書OCRライブラリ v.9.0 (Server OS 対応版) 開発キット

定価750,000円(税込810,000円)

年間保守サービス

定価150,000円(税込162,000円)


※本ライブラリを使用した商品の配布については別途ライセンス費用が必要となります。
※ライセンス(ロイヤリティー)価格については、当社営業担当へお問い合わせください。



■主な特長

(1)認識エンジンの性能強化

1.日本語認識エンジン"WRP-3STAGE"の性能強化
WRP-3STAGEエンジンの文字識別性能を強化し、JIS第2水準の漢字を含む全文字種の特に低品 質文字の高精度な認識を可能にしました。

2.その他の認識性能向上
・日本語文書中の英文での空白(スペース)部分の再現性が向上しました。
(※日本語/日欧混在モード認識時)
・縦書きの約物の認識精度が向上しました。
・括弧(「」『』の2種類)の認識精度が向上しました。


(2)画像補正処理の改良による書籍認識精度向上

1.見開き補正精度向上
見開き分割線(中心線)の検出精度が向上し、文字が分割されて誤認識する現象を軽減しました。

2.行歪み補正の追加
従来の傾き補正に加え、行探知でゆがみを検出し、画像全体を補正することで、本の見開きなどで、行が歪んでしまった画像の補正が可能になりました。


(3)レイアウト解析性能向上

1.ノイズ判定の精度向上
スキャン原稿の周囲の黒い領域(ボーダー)や、ノイズの識別精度を向上させ、レイアウト解析結果に含まれることがあった不要な領域が減少しました。
2.領域識別精度向上
文章・表・図の識別精度がさらに向上しました。
3.読み順推定の精度向上
認識する順番を推定する精度を向上させ、より正しい読み順で認識できるようにしました。


(4)リジェクト性能向上

リジェクト(誤読の可能性が高い部分を抽出する)機能の性能が向上しました。大量のデータを電子化する際に、誤りの可能性がある文字だけを抽出できますので、データの修正がさらに効率的に行えます。
専用辞書も搭載しているため、言語処理を組み合わせてリジェクトさせることが可能です。
リジェクトレベル(抽出する度合)は10段階に設定することができます。
※リジェクト機能を使用する場合は、認識速度と精度のレベルを選択できません。


(5)出力形式の追加と改良

縦書き中の英文字、縦中横文字をWordへ出力可能になりました。


(6)Officeファイル出力の再現性向上

Word/ExcelなどのOffiecファイル形式出力の再現性が向上しました。


※認識結果は元原稿やスキャン条件によって異なります。認識結果の内容を保証するものではありません。事前に評価版にて性能をご確認ください。



■動作環境

対応OS Windows 10 Education / Enterprise / Pro / Home
Windows 8.1 / Windows 8.1 Enterprise / Pro / with Bing
Windows 8 / Windows 8 Enterprise / Pro
Windows 7 Enterprise / Ultimate / Professional / Home Premium / Starter
※各日本語版に対応
※64bit版では、32bit互換モード(WOW64)で動作します。
※Windows 7のXPモード、Macintosh、Windows RTは対応外です。
対応OS
(ServerOS対応版)
Windows 10 Education / Enterprise / Pro / Home
Windows 8.1 / Windows 8.1 Enterprise / Pro / with Bing
Windows 8 / Windows 8 Enterprise / Pro
Windows 7 Enterprise / Ultimate / Professional / Home Premium / Starter

Windows Server 2012 R2 Standard
Windows Server 2012 Standard
Windows Server 2008 R2 Standard/Enterprise(SP1以降)
Windows Server 2008 Standard / Enterprise
※各日本語版に対応
※64bit版では、32bit互換モード(WOW64)で動作します。
※Windows 7のXPモード、Macintosh、Windows RTは対応外です。
対応仮想化商品
(ServerOS対応版)
VMware vSphere Hypervisor(ESXi) 5.1 / 5.5 / 6.0
Hyper-V 3.0 / 3.1
※ホストOSやゲストOSなどの詳細は当社ホームページをご確認下さい。
対応機種 上記OSが正常に動作する機種
開発環境 DLL版:
Visual C++ VC 9.0 / 10.0 / 11.0 / 12.0
C#(.NET Framework 4.0)
その他 ・本ライブラリは別プロセスからの非同期処理に対応しています。
(マルチプロセス呼び出し対応)
※同一プロセス内での非同期実行には対応していません。
(マルチスレッド呼び出し非対応)
・アクティベーションを行うためにインターネット接続環境が必要です。
※インターネットに接続できない場合、インターネットに接続可能な別のパソコンを使って代理認証させることができます。


■仕様

画像の読み込み BMP、JPEG、PNG、PDF(画像のみ)
TIFF/マルチページTIFF(非圧縮、G3/G4圧縮、LZW圧縮、PackBits圧縮)
メモリ上の画像データ(DIB形式)
※画像サイズは最大A3まで、解像度は300~600dpi、カラーに対応
画像の傾き補正 自動(±20度以内)/手動
画像の回転 90度/180度/270度/用紙方向自動判別機能
スマートフォン/デジタルカメラの撮影条件 機種:500万画素以上で接写可能な機種
撮影モード:マクロ(接写)機能を有効にする
撮影環境:
名刺が歪曲しないように、平らにして写す
名刺の枠線が画像からはみ出さないように写す
名刺と背景の色の差が大きくなる場所に置いて写す
背景に余計なものが入らないように写す
光の反射が入らないように写す
※画像の歪み補正は、水平・垂直線に対する30度以内の歪みに有効となります。
認識対象言語 日本語/英語/中国語(簡体・繁体)/韓国語
【欧米語認識オプション標準対応言語】
英語・ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語
レイアウト解析 原稿種別の選択:自動判別/表領域/文章領域/図領域
認識結果 認識結果はShift JISコード(日本語/英語)、GB2312-80コード/ Big-5コード(中国語)、KSC5601コード(韓国語)
改行コードの挿入:ブロック単位/行単位
スペースコードの出力:しない/する(日本語の場合のみ)
認識最大文字数 2万/頁(改行、タブ等含む)
出力形式 テキスト、Unicodeテキスト、RTF、DOC、DOCX、XLS、XLSX、PPT、PPTX、CSV、HTML、PDF(通常・透明テキスト付き・MRC圧縮)、XPS、EPUB
※通常は1ページ分、マルチページTIFF/PDFの場合は複数ページ分可能
※中国語・韓国語の場合はUnicodeテキスト、PDF形式(通常・透明テキスト付き・MRC圧縮)、RTF、DOC、XLS、PPT、DOCX、XLSX、PPTX、XPS、EPUBのみとなります。

認識対象言語 日本語、英語、中国語、韓国語
【日本語認識部】
認識方式 新・拡張セル特徴方式
認識対象文字種 漢字(JIS第1水準、第2水準文字)、ひらがな、カタカナ、アルファベット、数字、記号等約6,700字
認識書体 明朝体、ゴシック体、教科書体等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 縦書き・横書き自動判別、文字サイズ混在文書対応
【英語認識部】
認識対象文字種 アルファベット、数字、記号
認識書体 マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 文字サイズ混在文書対応
横書き対応
【中国語認識部】
認識対象文字種 中国語(簡体字)6763字(GB2312-80コード対応)
中国語(繁体字)13053字(Big-5コード対応)
認識書体 明朝体・ゴシック体等10種類以上のフォントに対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
【韓国語認識部】
認識対象文字種 韓国語Hangul 2350字/Hanja 4888字(KSC5601コード対応)
認識書体 明朝体・ゴシック体等10種類以上のフォントに対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
※Unicode特有の文字は認識対象外となります。

■お問い合わせ

◇商品に関するお問い合わせ先

メディアドライブ株式会社 営業部
TEL:03-5541-9630

※ご使用に際してはソフトウェア使用許諾書に準じます。
※本商品は、第三者に対して、賃貸、貸与、販売、ならびに譲渡することはできません。
※その他の記載された会社名・商品名は各社の商標または登録商標です。
※市販のパッケージ商品とは機能や性能が異なります。
※記載された内容は予告なく変更することがありますので予めご了承ください。
※記載された内容は2015年11月現在のものです。
※商品の詳細については当社ホームページをご覧ください(11月末公開予定)。