活字OCRライブラリ v.10.0

非定型帳票・一般文書に対応した開発者向け活字OCR ライブラリ
ロゴ
 
高性能/多言語対応の開発者向けOCRライブラリ最新版

活字OCRライブラリは「日本語」、およびその他言語の文字認識を行うDLL(ダイナミックリンクライブラリ)タイプのライブラリです。非定型の活字文書を文字認識し、認識結果をOffice文書やPDFなどのファイルフォーマットで出力します。高精度レイアウト解析機能と豊富なファイル出力機能を標準搭載。お客様のアプリケーションや業務システムに活用させることが可能です。

 

活字OCRライブラリの特徴

低品質な文字も認識可能

国内最高峰の高精度認識エンジンを搭載し、多種多様なドキュメントのOCR処理を実現。「速度優先」「通常」「精度優先」のレベル設定が可能でさまざまな運用スタイルにフレキシブルに対応します。本バージョンではAI-OCR技術による全般的な認識精度の向上に加え、特にカスレ文字や印影付き文字、背景が網掛けされた文字などの低品質文字の認識を大幅に向上しました。

 
かすれ
かすれ

 

網掛け
網掛け
印影
印影
白抜き
白抜き
半角カナ
半角カナ

 

キー&バリュー方式で非定型帳票を認識

キー&バリュー方式のフレームワークを搭載し、レイアウトが異なる非定型の帳票の認識に対応し、前述のAI-OCRと組み合わせることでキー項目を高精度で認識し、帳票を識別することが可能です。
キー&バリュー方式による任意のOCR設定の作成に加え、標準対応帳票として、請求書に対応したプラグインを搭載しています。インボイス制度により厳格化される必須項目のチェックやデータ修正にかかる業務負担を削減します。

キーバリュー方式

 

請求書対応プラグイン搭載

標準対応帳票として、請求書に対応したプラグインを搭載しています。インボイス制度により厳格化される必須項目のチェックやデータ修正にかかる業務負担を削減します。

請求書

 

Cloud API版をリリース

対応プラットフォームとして従来のWindows版に加え新たにCloud API版をリリース。専用OCRサーバを用意することなく、スマートフォンやタブレットなどと連動した開発が可能となります。

CloudAPI

 

お問い合わせお待ちしております
 
お問い合わせ
お問い合わせ
特長
 
さまざまな文字を高精度に認識

長年にわたるOCRエンジンの開発で培われた技術力と洗練された言語解析辞書による知識処理で高精度認識を実現。また、認識できなかった文字や誤読した文字は即時に学習させることによりさまざまなフォントの認識精度を向上させます。

 

多言語の認識に対応

日本語・英語・中国語・韓国語の認識に標準対応。オプション機能として、アジア圏言語(タイ語・ベトナム語・マレー語・インドネシア語)およびヨーロッパ圏言語[欧米語](ドイツ語・フランス語・スペイン語・イタリア語・オランダ語・スウェーデン語・ノルウェー語・フィンランド語・デンマーク語・ポルトガル語・ロシア語)に対応可能です。

 

多言語の認識

読みにくい文字も認識

一般的にはよみにくいとされるイタリック文字、日本語縦書き内の横書き英字なども認識可能です。

イタリック
イタリック
縦書き中の横書き英字
縦書き内横英字

 

■ その他の認識関連機能
・ 認識言語自動判別(日本語・英語)
・ 文字種指定
・ 表認識データ区切り設定(罫線位置・点線有無など)
・ ユーザー辞書・文字パターン辞書(5000文字)
・ WinReaer PROの辞書使用が可能

 

画像補正機能

傾き補正やトリミング機能、色補正などの画像補正機能でカメラ撮影画像や低品質の画像も高精度にOCR処理を実現します。

画像補正機能

■ 画像補正の基本機能
・ 背景ノイズ除去
・ 傾き補正・用紙方向判別・歪み補正
・ カメラ画像手振れ補正
・ 色彩補正(カメラ撮影時の照明による影響を低減しオリジナルに近い色情報を再現)

 

元原稿のレイアウトを再現

当社独自のレイアウト解析技術により、非定型の文書から【文字領域】【表領域】【画像領域】を自動判定し、領域情報を取得できます。これにより面倒なパラメータを設定することなく高精度な文字認識を実現。元原稿をリアルに再現させることが可能です。

元原稿のレイアウト再現

 

■ その他のレイアウト解析機能
・ 座標指定、行矩形を利用した文字認識
・ ドキュメントの最初の一行を認識してその結果を取得
・ 表領域を認識して表の構造を取得
・ セル単位の文字認識、セル背景色の出力、表領域のセル結合出力
・ 認識に最適な画像へ自動で拡大

 

さまざまなファイル出力形式をご用意

テキスト、Unicodeテキスト、Officeフォーマット(Word/Excel/PowerPoint)、PDF、HTML、RTF、CSVといった豊富なファイル出力でさまざまな用途に対応。レイアウトを再現した出力、ルビ文字、英数文字の半角文字への変換、スペースコードの出力など、様々なパラメータを用いて、用途に適したテキスト出力が可能です。

 

対応ファイル形式

テキスト、Unicodeテキスト、RTF、DOCX、XLSX、PPTX、CSV、HTML、PDF(通常・透明テキスト付き・透明テキスト付きMRC圧縮)、JSON(非定型帳票時のみ)の出力に対応。

対応ファイル形式

高圧縮透明テキストつきPDFファイル出力に対応

文書中の画像部分と文字部分をレイヤ構造に分けて効率的に圧縮する「MRC圧縮」方式を使った高圧縮透明テキスト付きPDFファイルの出力機能を搭載。PDF内での文字の表示品質と圧縮率が向上します。電子書籍端末での利用にも最適。

透明テキストPDF

 

リジェクト機能で修正を効率化
リジェクト(誤読の可能性が高い文字を抽出する)機能を搭載。誤りの可能性がある文字を抽出できます。専用辞書を搭載しているため、言語処理を組み合わせてリジェクトさせることも可能です。リジェクトレベル(抽出する度合)は任意に変更することが可能です。大量のデータを電子化する際に、データ修正の効率化が実現できます。
リジェクト画面

 

料金プラン
 
開発キット
活字OCRライブラリ v.10.0 開発キット 500,000円 + 税
活字OCRライブラリ v.10.0 開発キット 年間保守サービス 100,000円 + 税
活字OCRライブラリ v.10.0 ServerOS対応版 開発キット 750,000円 + 税
活字OCRライブラリ v.10.0 ServerOS対応版 開発キット 年間保守サービス 150,000円 + 税
+
オプション
タイ語認識オプション 定価 200,000円 + 税
マレー語認識オプション 定価 200,000円 + 税
ベトナム語認識オプション 定価 200,000円 + 税
インドネシア語認識オプション 定価 200,000円 + 税
タイ語認識オプション 年間保守サービス 定価 40,000円 + 税
マレー語認識オプション 年間保守サービス 定価 40,000円 + 税
ベトナム語認識オプション 年間保守サービス 定価 40,000円 + 税
インドネシア語認識オプション 年間保守サービス 定価 40,000円 + 税
ヨーロッパ圏言語[欧米語]認識オプション お問い合わせください
ヨーロッパ圏言語[欧米語]認識オプション 年間保守サービス お問い合わせください

 

■ ライセンスについて
・本ライブラリを使用した商品の配布については別途ライセンス費用が必要となります。
・年間保守サービスは初年度必須となります。商品購入時にお申し込みください。
・認識オプションの年間保守サービスは、各言語毎に加入が必要です。
仕様
 
動作環境
対応プラットフォーム Windows / Cloud OCR API
OS Windows 11 / 10(64bit)
Windows Server 2022 / 2019 / 2016
※各日本語版に対応
※ServerOSは「ServerOS対応版」のみ対応
※LTSC/LTSBの対応については、別途お問い合わせください。
※32bit版では動作しません。
※最新情報は【こちら】をご覧ください。
仮想化環境 仮想環境の対応OS・動作環境は【こちら】をご覧ください。
開発環境 VC++ 17.0 / 16.0 / 15.0 / 14.0 / 12.0
C# (.NET Framework 4.8 / 4.7 / 4.6.2)
その他 アクティベーションを行うためにインターネット接続環境が必要
※インターネットに接続できない場合は別PCにて代理認証が可能

 

仕様
入力
画像ファイル形式 BMP・TIFF/マルチページTIFF(非圧縮、G3/G4圧縮、LZW圧縮、PackBits)・PNG・JPEG・PDF(画像のみ)・メモリ上の画像データ(DIB形式)
※Cloud APIはJPEG/TIFF(シングル、G4圧縮)
画像サイズ 最大A3サイズ、カラー対応
画像解像度 スキャナ画像300~600dpi(Cloud APIは300dpiまで)、カメラ画像4200万画素まで
画像の傾き補正 自動(±20度以内)・手動
画像の回転 90度・180度・270度・用紙方向自動判別機能
携帯電話/デジタルカメラの撮影条件 機種:500万画素以上で接写可能な機種
撮影モード:マクロ(接写)機能を有効にする
撮影環境:原稿が歪曲しないように、平らにして写す
原稿と背景の色の差が大きくなる場所に置いて写す
背景に余計なものが入らないように写す
光の反射が入らないように写す
※画像の歪み補正は、水平・垂直線に対する30度以内の歪みに有効となります。

 

認識・出力
認識対象言語 日本語・英語・中国語(簡体・繁体)・韓国語
【アジア圏言語認識オプション】
タイ語・マレー語・ベトナム語・インドネシア語
レイアウト解析 原稿種別の選択:自動判別・表領域・文章領域・図領域
出力画像形式 BMP・TIFF(非圧縮・G3・G4圧縮・LZW圧縮/マルチ・シングル)・JPEG・PDF(1.3以降) 
※TIFFの1bitパレット画像、JPEG圧縮は非対応
認識結果文字コード 日本語:Shift JIS、英語:ASCII、中国語(簡体字):GB2312-80、中国語(繁体字):Big-5、韓国語(ハングル):KSC5601、マレー語、ベトナム語、タイ語、インドネシア語 :UTF-16
※Cloud APIはUTF-8(全言語共通)
改行コードの挿入:ブロック単位・行単位
スペースコードの出力:しない・する(日本語の場合のみ)
認識最大文字数 2万/頁(改行、タブ等含む)
出力形式 テキスト・Unicodeテキスト・RTF・DOCX・XLSX・PPTX・CSV・HTML・PDF(通常・透明テキスト付き・MRC圧縮)、JSON(※非定型時のみ)
※Cloud APIはJSON形式のみ
※中国語・韓国語はUnicodeテキスト、PDF形式(通常・透明テキスト付き・MRC圧縮)・RTF・DOCX・XLSX・PPTXのみ
※通常は1ページ分、マルチページTIFF/PDFの場合は複数ページ分可能

※AI-OCRはオプションとなります。ご利用の際はインターネット接続が必要です。
※非定型帳票OCRはオプションとなります。
※キー&バリュー方式で対応できない帳票フォーマットもございます。

 

各認識言語詳細仕様
● 日本語認識部
 
認識対象文字種 漢字(JIS第1水準、第2水準文字)、ひらがな、カタカナ、アルファベット、数字、記号等約6,700文字
認識書体 明朝体、ゴシック体、教科書体等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 縦書き・横書き自動判別、文字サイズ混在文書対応
ユーザー学習辞書 最大5000個/ファイル

 

● 英語認識部
 
認識対象文字種 アルファベット、数字、記号
認識書体 Arial、Helvetica、Verdana等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 文字サイズ混在文書対応

 

● 中国語/韓国語認識部
 
認識対象文字種 中国語(簡体字)6763字(GB2312-80コード対応)
中国語(繁体字)13053字(Big-5コード対応)
韓国語Hangul 2350字/Hanja 4888字(KSC5601コード対応)
認識書体 中国語(簡体字) :宋体、倣宋体、楷書体、黒体等マルチフォント対応
中国語(繁体字) :細明体、新細明体、標楷体等マルチフォント対応
韓国語(ハングル):Batang, Gulim, Dotum等マルチフォント対応
文字サイズ 1.8mm~15mm角程度(5※~45ポイント程度)※600dpi画像のみ
文書形式 文字サイズ混在文書対応

 

● タイ語認識部
 
認識対象文字種 タイ語
認識書体 マルチフォント対応
文字サイズ 12~16pt, 300~600dpi

 

● ベトナム語認識部
 
認識対象文字種 ベトナム語
認識書体 マルチフォント対応
文字サイズ 10~14pt, 300~400dpi

 

● マレー語認識部
 
認識対象文字種 マレー語
認識書体 マルチフォント対応
文字サイズ 1.8mm~15mm(5~45pt) 5ptは600dpiのみ

 

● インドネシア語認識部
 
認識対象文字種 インドネシア語
認識書体 マルチフォント対応
文字サイズ 1.8mm~15mm(5~45pt) 5ptは600dpiのみ

 

お問い合わせ
 
お問い合わせ・ご相談はお気軽に
お問い合わせ

 

 

TOP
CONTACT
お問い合わせ
製品・サービスについてお気軽にお問い合わせください