本文へジャンプ

東京基礎研究所 > 
IBM Research

Human Computer Interaction

コンピューターシステムを実際に使うのは生身の人間です。より様々な状況下で、また、様々なハンディキャップを持った人々にも使いこなせるよう、ユーザーインターフェースにも不断の改良が求められています。東京基礎研究所では特に、音声技術と視覚障害者向けのアクセシビリティ技術において、業界を大きくリードしています。

研究分野
ロバスト音声認識
このプロジェクトでは、人間の聞き取り能力を上回る性能を持つ音声認識機能の実現を目標としています。まず実使用環境下での性能改善のため、音響処理の観点からは、定常騒音、突発性雑音の除去、マルチマイクロフォンを用いた目的話者の発話の検出および強調処理、残響の除去といった研究をしています。また言語処理の観点からは、自由発話の正確な書き起こしに向けて言い淀みのモデル化、未知語の自動獲得といった研究を推進しています。また、音声認識の利便性を高めるため、音声による場所表現の頑健な検索など音声理解の研究も精力的に行っています。

自動構築可能なテキスト音声合成
このプロジェクトでは、対象となる話者の発話をテキストだけから忠実に再現できるシステムの実現を目標としています。従来のテキスト音声合成の出力では、内容は正確に聞き取れるものの、対象とする話者が本来持つ個性は大きく失われ、その結果、愛着の持てるような声は生成できませんでした。言語処理にも音声認識で培った統計的言語処理の技術を導入し、収録音声から抽出された特徴量から言語モデルを構築するという新しい手法を提案することで、対象となるドメインを限定すれば、対象話者の生録音音声と遜色のない合成音声をテキストだけから生成できるようになりました。さらに自然性を改善するため、感情音声合成の研究にも取り組んでいます。
音声言語処理

音声分析技術
さまざまなビジネスの局面で、CRMやコンプライアンスチェックのため、テキストのみならず、お客様との音声による「やりとり」を分析することが望まれています。従来、対話における自由発話の音声認識は難しいとされてきましたが、ここ数年著しい進歩がありました。本プロジェクトでは主としてコールセンターでの対話音声を対象とし、発話内容を時刻情報とともに正確に文字化する技術、録音に含まれる複数の話者の発話や音楽、雑音などを検出し、分離・分類する技術、発話に含まれる快・不快などの感情を言語的および音響的に検出する技術、長時間対話の主導権の遷移を概観するための技術などの研究に取り組んでいます。

次世代のオフィス・ドキュメント・エディター
従来のオフィス・エディターでは、複数人による共同編集、アイデアの共有、ディスカッション等が効率的に行えませんでした。このプロジェクトでは、オープンなオフィス・ドキュメントのフォーマットであるOpen Document Format (ODF) を用いることで、様々なWebアプリケーションとの統合が可能な次世代のWebオフィス・エディターと、それを中心とした新しいコラボレーションの仕組みを研究しています。

ソーシャル・コンピューティングによるアクセシビリティ
障碍者や高齢者など多様なユーザーが本当に使いやすいウェブページを作る活動には、ウェブページの製作者だけでなくユーザーの参加も必要です。このプロジェクトでは、障碍者や高齢者と一般のボランティアが、元のウェブページに変更を加えることなく、協力してその使い勝手を改善することができる、ソーシャル・ネットワークを利用した新しいサービスの研究に取り組んでいます。現在、視覚障碍者とボランティアのユーザーを対象にしたサービス、「ソーシャル・アクセシビリティ・プロジェクト」を公開しています。
アクセシビリティ・リサーチ

テキスト処理支援ツール
グローバル化が進む企業においては、他言語/多言語の文書が存在し、お客様とのやり取りや技術的作業に際しても、高品質の文書が要求されてきています。私たちは自然言語処理技術を活用して、文書校正・翻訳・サニタイズ/マスキングなどの作業をサポートするツールを研究・開発しています。


これまでのプロジェクト・成果
  不可視バーコード技術
  アクセシビリティ・リサーチ aiBrowser
  アクセシビリティ・リサーチ aDesigner
  パーソナル・ビデオ・ダイジェスト
  映像理解
  メディアモニタリング・ソリューション


上に戻る