IBM 本文へジャンプJapan
 
     ホーム  |  製品 & サービス  |  サポート & ダウンロード  |  ユーザー登録
 Select a country
Japanese | English
 IBM Research home
東京基礎研究所(TRL)
研究プロジェクト
 インフォメーション&インタラクション
 テキスト・マイニング
 
 
 

研究の概要

  
 

テキストマイニングに必要な機能

    テキストマイニングは大きく分けて以下の3つの機能が必要になります。

  • 概念情報の抽出 ...
    自然言語処理に基づいてテキストからマイニングに役立ちそうな情報の抽出を行います。これは単なるキーワードの抽出だけでは不十分で、単語の多義性や同義性を考慮に入れた上での抽出が必要になります。同義表現をまとめた辞書の生成を行って「PC」と「パソコン」を「パーソナルコンピュータ」という一定の表現に書き換えることにより、同義性を吸収します。また、同じ「長野」という単語について、人名か地名かという多義性を解消するため「長野[人名]」「長野[地名]」というように意味属性を加えて表します。
    さらに、文書の概念を表すときには単語だけでは不十分で文の中での係り受け情報も重要です。どのような行為が関係しているのか、文章の意図するところは何か(質問か苦情か要望か)を判定するときには述語やその付属語の情報で行います。例えば
    • Win98を入れたら起動が早い。
    • Win98を入れても起動が早くない。
    • Win98を入れたら起動が早いか?
    • Win98を消したら起動が早い。
    という文章は、キーワードだけを取り出すとすべての文が「Win98」と「起動」という同じ2つの単語から構成されるものと判断され、区別されません。したがって、 「○が×すると△が◇する」という複合概念まで抽出することが必要になるのです。

  • マイニング ...
    1.で抽出した情報から、今までに知られていない新しい情報や知識を得るためにマイニングを行います。この処理は抽出された概念の集合から、どのような情報を得たいかに依存します。
    データマイニングの手法を用いて一つの文書を一つの単位として考え、その中のアイテムの集合として単語(あるいは1.で述べた”概念”)を取り上げ、相関ルールや出現頻度の時間変化におけるパターンを捉えます。
    ここで、一般的なデータマイニングと異なり文書データの特長を生かした処理が必要になります。データマイニングの中では通常個々のデータの値は大きな意味を成さないのに対し、文書中では単語毎に目的に応じた重要度が存在して出現頻度が低くても重要視しなければならない概念も存在します。このような重要視すべき概念をどのように認識するのかも大きな課題となっています。

  • 情報の可視化 ...
    マイニングで得た情報をさまざまな視点から分析し、可視化します。テキストから得たデータには、
    • 頻度
    • 相対頻度
    • 話題性
    • 地域別
    • 時系列
    などがありますが、ここでは全体像を可視化することに加え、要望に応じて上にあげたデータと全体との関わりをインタラクティブに観点を変えながら分析できるしくみを取り入れています。さらに全体像を把握した上で着目する部分に対象を絞り込み、絞り込んだ集合の情報を同じように多様な観点から提示することで更に分析を進めていくことが可能になります。
    また、テキストマイニングはデータマイニングと比べて対象が自由に記述されたテキストであるため、どうしても精度が落ちてしまいます。そのため、分析結果の不明点、疑問点をすぐに明らかにするため元の文書をすぐに参照することのできる機能もテキストマイニングには必要です。
  
 
  日本IBMについて  |  プライバシー  |  ご利用条件  |  お問い合わせ