文書分類・検索

これまでになったコンセプトによる文書の自動分類、検索ライブラリ

文書分類・検索

これまでになかったコンセプトによる文書の自動分類、検索ライブラリです。大規模なデータセットを、任意の数に自動分類。文書全体をクエリーとして、データベース中から類似した文書を検索します。
 

 

製品の使用目的

たくさんの日本語文書を自動的に一定数に分類したり、文書やキーワードをクエリーとして関連する文書を検索したり、類似度によって順位付けすることができます。


製品の特徴

・新情報処理開発機構で開発されたASKS(連想キーワード空間法)を改良した方法を採用
・連想キーワードの採用によって、あいまいさを持たせた文書類似度の計算が可能
・高速分類(2500文書→10分類 1分以内)
・長文の文書をそのままクエリーとした類似文書検索が可能
・3D空間配置による、文書や単語のビジュアライズが可能


製品の応用先

・文書アーカイブソフトウェアの付加価値アップに
・データベース中の文書の関係をビジュアライズ(視覚化)
・よりヒューマンフレンドリーなインターフェースの作成


注意事項

・3次元表示を行う体験版プログラムがSDKに含まれますが、OpenGLを使用しているため環境によって動作しないことがあります。ご提供するライブラリは3次元座標値を出力するのみで表示等の機能は持っていません。Direct3D等による表示プログラム等の開発作業についても、別途お引き受けできますのでご相談ください。
・ファイル内の文字コーデックについてはMSJISのみで、コード変換、行末処理等についてはお客様側でご用意ください。
・OSおよびファイルシステム等に起因するファイル数、ファイルサイズ等の制約があります。


製品の応用例

MSJISで記述された100~500文書(テキストフォーマット)を分類検索する体験版プログラムです。(使用方法については体験版プログラム添付のテキストをご覧ください)
(左上画面)文書を指定して実行すると、空間に文書を類似度により自動的に配置されます。各点がそれぞれ1文書を表し、類似した文書ほど互いに近くに配置されます。この状態は、3次元操作ボタンによって回転することで確認することができます。
自動分類機能:分類数をセットして、自動分類を実行すると指定した数にデータベースが分類されます。
文書高速検索機能:文書を表す各点をクリックするとその文書が表示されます。その文書を右クリックして「検索」を選ぶと類似したものから順に文書をリスト表示します。

文書分類検索


製品の仕様

入出力形式
日本語に対応。
実行環境
対応プラットフォーム
・Windows 8.1 (32ビット/64ビット)
・Windows Server 2008 (32ビッ/64ビットト)
・Windows Server 2008 R2(64ビット)
・Windows Server 2012 (64ビット)
・Windows Server 2012 R2 (64ビット)

※64bit版OSでは32bit互換モード(WOW64)で動作します。その他の64bit版OS、Macintoshは動作保証外。
※Windows 8 はデスクトップアプリケーションとして動作(Windows RTは動作保証外)。
※日本語版に対応
※その他のOSは、個別にご相談ください
対応機種
上記OSが正常に動作する機種
開発環境
提供形態
ダイナミックリンク ライブラリ
インポート ライブラリ
C/C++用ヘッダーファイル
API呼び出し形式
すべてのAPIはC言語形式となっています。(stdcall)
その他
内部ではマルチスレッドを使用していませんが、再入可能となっていますので、アプリケーションとしてはマルチスレッドが可能です。
但し、内部で同時実行スレッド数などの検査は行っていません

 

その他

※本ライブラリは新情報処理開発機構の研究成果を使用しております。
CONTACT
お問い合わせ
製品・サービスについてお気軽にお問い合わせください