レイアウトの論理構造解析技術
「電子書籍に求められる XML 構造化を OCR で実現します。」
新しい認識技術:レイアウトの論理構造解析技術
「レイアウトの論理構造解析技術」とは、文書画像に対して、文章、表、図などの領域抽出を実施するレイアウト解析に加え、認識した日本語テキストの意味や構造を解析し、XML形式の特長を活かすべきタグ情報を自動的に付与する技術です。
レイアウトの論理構造解析技術
論理構造解析技術により、書籍単位での認識処理を実施することで、書籍の「タイトル」、「著者名」、「ページ番号」などのタグ情報を自動的に取得することが可能となります。
-
タイトル・著者名の抽出
-
ルビ・強調文字と単語(文字)の対応付け
-
ページ番号、注の検出
-
発行年・月・号の取得
-
新旧字体変換の作成
-
CSVファイルへの出力
-
レイアウトの修正(ブロック、行の切り出し、順番の変更)
現状の文書レイアウト解析・領域識別技術との違い
■ 現状の文書レイアウト解析・領域識別技術
- 文書レイアウトの、テキスト、図、表、などの領域をページ単位で解析し領域識別する技術
-
OCR結果の再現性(Word上など)を重視した技術
■ 文書レイアウトの論理構造解析技術
-
これまでの方式+以下の処理
-
文書レイアウトの論理構造(タイトル(章、節、など)、著者名、本文、ページ番号、柱、など)を抽出する
-
書籍単位の処理を行う
文書レイアウトの論理構造が抽出できると、何ができるか
-
書籍や雑誌を読んでいるのと同じ感覚で電子書籍を読むことができます。(目次から読みた章、節に飛ぶ、など。)
-
PDFの「しおり」を自動生成できます。
-
従来のOCRのテキスト出力は、認識した文字すべてを出力するので、本文の途中にページ番号など不要な文字が出力さていましたが、構造解析ができると、本文のみを出力することが可能になります。
EPUB3.0対応
「縦中横書き認識」、「ルビ認識」や「圏点認識」などの認識も可能となり、紙媒体の書籍のOCR処理をより一層高精度なものとして、電子書籍作成を強力にサポートします。