東芝情報システム株式会社

テキスト資産活用ソリューション「トレジャーマイニング™」特長

単語の出現頻度や検索ノイズ、同義語・類義語を考慮した検索と、それらを実現するための専門用語辞書の生成を支援

単語の出現頻度や検索ノイズ、同義語・類義語を考慮した検索と、それらを実現するための専門用語辞書の生成を支援

精度の高い分析に必要な辞書メンテナンスの半自動化

分析・検索対象のテキストから自動的に辞書の登録候補を抽出するため、辞書のメンテナンスコストを大幅に削減できます。

また、新しい単語を検知すると自動で辞書をチューニングします。
メンテナンス時間も短縮されて常に辞書が最適化されますので、検索エンジン利用者の満足度向上に貢献します。

なぜ辞書が必要なのか?

テキストの分析や高度な検索のためには、テキストを単語に分割する必要があります。
しかし、単純な分割をしただけでは、辞書を持たないRDB検索のように一致した単語をスコアリングすることなく検索してしまうため、目的の文書にすぐにたどり着きません。

例えば以下のテキストがあるとします。

" 川崎第一工場にて稼働中の温度センサー3号機でエラーが発生。エラーコードはE0101。"

トレジャーマイニングを利用しない場合

トレジャーマイニングでは、テキストを形態素解析手法を用いて分割するため、正確で精度の高い辞書を作成することができます。
これにより、大量の文書の中から目的の文書に早くたどり着くことができます。

トレジャーマイニングを利用する場合

辞書メンテナンスコストの削減を実現

従来の全文検索エンジンやテキストマイニングツールでは、辞書を使用した検索が行われていますが、その辞書のメンテンナンスには高度な分析スキルを持った管理者が必要になります。

トレジャーマイニングでは、分析・検索対象のテキストから自動的に辞書の登録候補を抽出するため、辞書のメンテナンスコストを大幅に削減できます。

表は左右にスクロールできます
 RDB検索   全文検索 
エンジン
テキスト
マイニング
ツール
トレジャー
マイニング
勲章
検索精度(辞書使用) ×
辞書登録方式 手動 手動 半自動
辞書メンテナンスコスト 高い 高い 低い
トレジャーマイニングの優位性

高い検索精度を実現

メンテナンスした辞書を用いて分析・検索することにより、同義語や表記ゆれなどを吸収でき、また、スコアリングの精度を高めることができます。

利用者のフィードバックを反映することでより精度の高いスコアリングを実現(検索精度が成長)

検索エンジンを利用して表示された結果に対して評価を行うことが可能です。

検索エンジンや辞書は定期的にチューニングされますが、フィードバックを反映することでより精度の高いスコアリングを実現します。

お客様の運用を支援するカスタマイズオプション

  • テキストデータ取込カスタマイズ
    企業のテキスト資産には、メールや Excel での作業記録などCSV形式以外の文書が多く存在しています。また、既存システムのRDBなど自然言語検索が行えないシステムを利用している企業も多いです。
    トレジャーマイニングの文書データベースはCSVファイルからの取り込みを行っているため、CSV以外のさまざまな形式のファイルをCSVに変換するデータ取込前処理作業を実施します。
  • 辞書データ出力カスタマイズ
    既に全文検索エンジンやテキストマイニングツールをお持ちのお客様には、辞書生成システムのみをご提供することが可能です。
    辞書生成システムで作成した辞書データベースをお客様が使用している辞書データベースに連携させるための辞書データの出力作業を実施します。

↑ページトップへ

お気軽にお問い合わせください。

電話番号044-246-8190

受付時間:9:00~17:45
但し、土曜・日曜・祝日および当社休業日を除く