OCRソフトウェアメーカー「メディアドライブ株式会社」は、認識精度の高い活字文書OCRや手書帳票OCR商品をご提供いたします。



HOME > 商品情報 > ライブラリ > 音声検索 > 製品概要
音声検索

音声検索

音声検索は、膨大な音声データの中からキーワードや発話を高速に検索する技術です。TV番組の録画ファイル、電話や会議の録音ファイルなどの音声を検索することができます。

1. テキストをキーとして、音声データから発話場所を見つけ出す。
2. 短い音声をキーとして、音声データから発話場所を見つけ出す。
3. テキストデータを音声で見つけ出す。

(電話・会議等の低品質音声向けには「電話・会議用音声検索」があります。)


音声検索の概要

電話や会議などの音声データから、テキストまたは音声をキーにして、音声データ内のキーワードや発話を検索することができます。

音声検索 音声データ 発話 検索

音声検索の特長

1.テキストで音声を検索、音声でテキストを検索
 

・テキストまたは音声をキーにして、音声データ内のキーワードや発話を検索することができます。

  ・音声をキーにして、テキスト文章内のキーワードや単語を検索することができます。
   
2.言語辞書不要
  ・音声認識とは異なり言語辞書を使用しないため、文法規則の守られない会話からの検索が可能です。
  国語辞典に含まれない流行語や未知語も検索することができます。
   
3.不特定話者の検索
  ・男女を問わず不特定話者の検索が可能です。前もって話者の声を学習する必要がありません。
   
4.高速な検索
  ・あらかじめ音声データから必要な特徴を抽出して検索用インデックスファイルを作成するため、高速に検索できます。


音声検索の応用例1 ビデオファイリング

「CrossMediator Basic SDK」の音声検索機能を使用することで、膨大な音声データの中からキーワードや発話を高速に検索することが可能です。
また、TV番組の録画ファイル、電話や会議の録音ファイルなどの音声を検索することができます。

下図はビデオファイリングシステムの一例です。DVDメディアやDV機器から動画をMPEG2やDV形式で入力し、必要な部分をクリッピングしクリップデータとして保存します。ファイリングされたクリップデータは、必要に応じさまざまな検索方法で検索されDVDメディアやVTR、DVに出力されます。

音声検索機能を使用したビデオファイリングシステムの一例

音声検索の応用例2 音声検索機能付き音声メモ装置

「CrossMediator Basic SDK」の音声検索の組み込み例として、ICレコーダーなどの録音機器に組みこんだ「音声検索機能付き音声メモ装置」があります。「ものを何処にしまったか」、「何を何時行わなければならないか」等を、音声で吹き込んでおいて、それに関するキーワードを同じく音声で問い合わせれば、そのキーワードを含む前後の録音部分を再生してくれる音声メモ装置です。「書くのもめんどう」「メモ用紙の管理が大変」という紙のメモ帳のわずらわしさもなく手軽にメモとして使用できます。

音声検索 仕様

入力形式
・入力音声は無圧縮PCM形式、サンプリング周波数16KHz以上(オプションの「電話・会議用音声検索」は8kHzも可)、モノラル/ステレオ。日本語/英語に対応。

※音声、動画のデコードおよびフォーマット変換等のライブラリについてはお客様でご用意ください。
実行環境
対応プラットフォーム
Windows2000、WindowsXP、Windows Vista、Windows7
※日本語版に対応
※ その他のOSは、個別にご相談ください。
対応機種
上記OSが正常に動作する機種
開発環境
提供形態
C言語形式ダイナミックリンクライブラリー(DLL)。
API呼び出し形式
すべてのAPIはC言語形式となっています。(stdcall)
その他
内部ではマルチスレッドを使用していませんが、再入可能となっていますので、アプリケーションとしてはマルチスレッドが可能です。


音声検索 製品構成

*CrossMediator Basic SDK (クロスメディエータ ベーシック)

「音声検索」、「ハミング検索」、「動画検索」の3機能から構成されるWindows用SDKです。

その他

新情報処理開発機構の研究成果を使用しています。