OCRソフトウェアメーカー「メディアドライブ株式会社」は、認識精度の高い活字文書OCRや手書帳票OCR商品をご提供いたします。



HOME > 商品情報 > ライブラリ > 音声・画像認識 ライブラリ一覧
音声認識 画像認識 ライブラリ一覧

音声・画像認識 ライブラリ一覧

高精度を誇る「音声認識・検索」の技術ならびに「画像認識・検索」の技術を提供します。豊富なライブラリと開発キットで、お客様のシステムにマルチメディア情報の検索や分類機能を加えて、高付加価値システムを実現してください。


音声認識SDK

HMM(Hidden Markov Model)方式による高精度連続音声認識システム。
日本語連続音声を読み取り、音響モデル、言語モデル等の知識を利用して音声入力をテキストに変換して出力します。

音声認識

画像認識SDK

撮影された物体が何の物体かを認識する「画像認識」、1枚の画像中からクエリー画像と同じ物体を検出する「物体検出」、複数の画像から類似した画像を検索する「類似画像検索」の機能があります。

画像認識

CrossMediator Basic

ビデオデータから発言/セリフの検索(音声検索)、ビデオデータから好きなCMの検索(動画検索)、ビデオクリップで本編の頭出し(動画検索)、曲名は判らないけど曲を見つけたい(ハミング検索)等の機能をお客様のアプリケーションに組込みたい時、本ライブラリをご利用ください。

CrossMediator Basic v.3.0

動画検索

動画検索は、動画データ内の類似したシーンを検索する技術です。静止画やビデオクリップをキーとして、動画内の類似したシーンを検索します。色調や色の空間分布の類似したシーンを検索することができます。

CrossMediator 動画検索

音声検索

音声検索は、膨大な音声データの中からキーワードや発話を高速に検索する技術です。
TV番組の録画ファイル、電話や会議の録音ファイルなどの音声を検索することができます。

CrossMediator 音声検索

ハミング検索

ハミング検索は、歌を歌って楽曲を検索する技術です。歌詞を歌っても、ハミングしても、口笛を吹いても検索することができます。

CrossMediator ハミング検索

CrossMediator Basicオプション:電話・会議用音声検索ライブラリ

電話・会議等の低品質音声に対応した音声検索ライブラリ。

CrossMediator 電話会議用音声検索

CrossMediator Basicオプション:テキスト音声自動照合ライブラリ

テロップ自動表示などを目的として、自動的に原稿テキストを音声データと同期させるライブラリ。

CrossMediator テキスト音声自動照合

シーン分割ライブラリ

シーン分割ライブラリは、長時間のビデオコンテンツをほぼ一定の長さのシーンに分割することができます。カメラで収録した映像はもちろん、テレビ放送映像等も映像の類似性の情報を使って分割しますので、お望みの分割結果を得ることができます。

CrossMediator シーン分割

コマーシャル検出

コマーシャルシーン検出ライブラリは、地上波のテレビ放送を録画したコンテンツをフレーム単位でそれぞれがコマーシャル映像かどうかを自動的に判別するライブラリです。

CrossMediator コマーシャル検出

文書分類・検索ライブラリ

これまでになかったコンセプトによる文書の自動分類、検索ライブラリ。大規模なデータセットを、任意の数に自動分類。文書全体をクエリーとして、データベース中から類似した文書を検索できます。

CrossMediator 文書分類検索

画像分類・検索ライブラリ

これまでになかったコンセプトによる静止画像のの自動分類、検索ライブラリ。大規模な画像セットを、任意の数に自動分類。画像をクエリーとして、データベース中から類似した画像を検索できます。

CrossMediator 画像分類検索

実世界リンクビジュアルインターフェース開発キット

コンピュータービジョン(CV)、センサフュージョン(MSF)、拡張現実(AR)技術に基づいて実世界と仮想世界を融合し、ユーザー本位の動作をしてくれるインターフェース開発キットです。

実世界リンク ビジュアルインターフェイス

HOIP開発キット 「顔画像検出・認識」開発キット

人の顔の検出や認識を行う機能を、関連するアプリケーションに組み込むための、開発キットです。

HOIP開発キット