|
LAL (Linguistic Annotation Language)
我々が普段書く文章は、多くの曖昧さを含んでおり、
コンピューターにとって正しく解析するのは大変な処理となっています。
言語処理手法がまだ未熟であるという点もありますが、
その前にやはり書いた本人でなければ分からない曖昧さというのが
存在することも原因の一つです。例えば、以下の文を考えて見てください。
白いヨットの帆
「ヨットが白い」のか「ヨットの帆が白い」のかは、書いた本人にしか分かりません。
しかし、これに例えば以下の様なタグが埋め込んであると、
白い<seg>ヨットの帆</seg>
後者であることがコンピューターにも分かります。
ここで、<seg>と</seg>の間の部分は
一つの言語的ユニット(句)であることを表しています。ですから、上記の例の場合ですと、
「白いヨット」の方の解釈の可能性がないことが分かります。
そこで我々はLALと呼ばれるXMLベースのタグセットを定義しました。LALのタグには以下の様
なものがあります。
s ... 1文の範囲を指定する。
w ... 1つの単語を指定する。
seg ... 任意の句の範囲を指定する。
以下にLALによるタグ付けの例を幾つか紹介します。
最新の<lal:seg>AptivaとThinkPad</lal:seg>の値段を調べたい。
この例では、segタグによりAptivaとThinkPadが並列の要素であり、「最新」はAptivaとThinkPad両方を修飾し、更に「値段」も両者の値段であることが分かります。
山田は<lal:w sense="hum">長崎</lal:w>と<lal:seg>神戸へ行った</lal:seg>。
この例では、「長崎」が人であることをwタグで表しています。また、segタグにより、「長崎と」は並列の要素ではなく「行く」へ修飾していることが分かります。
実際にはこのようなタグ付けを人手で行うのは大変な作業となりますので、
この作業を簡単に行うことが出来るGUIベースのタグ付けエディタを開発しました。
我々は、この様な言語的情報のタグ付けを普及させることにより、機械翻訳や自動要約など
の言語処理システムが今以上に精度が良くなり、より活用されることを目指しています。
|