|
PubMed に代表されるライフサイエンス分野の文献データベース中から抽出された遺伝子・タンパク・疾患などの固有名をもとに、それらの間に存在する関係を抽出します。
抽出される関係には、大きく分けて直接的な関係と間接的な関係の2種類があります。直接的な関係は、文内共起あるいは文書内共起とも呼ばれ、1文内あるいは1文書内に共通して出現する固有名のペアになります。一方、間接的な関係は、2つの語が別の共通の語と共起している場合を指します。
図1の概念図をご覧下さい。Doc#1から#4は文書を表します。Doc#1には "Gene_A activates Gene_B." という記述があります。同じ一文に Gene_A と Gene_B が出現しているため、このとき、Gene_A と Gene_B には何らかの(強い)関係があると判断するのは自然でしょう。また、Doc#2 には、同じ文内ではありませんが Gene_C と Gene_D が出現しているため、Gene_C と Gene_D にも何らかの関連があると推測できます。
また、Doc#3 と Doc#4 には、それぞれ Gene_A と Disease_A, Gene_B と Disease_B が出現しています。この場合、Gene_A と Gene_B に直接の関係はないものの、 Disease_A を介して何らかの関連がある可能性があります。

図1: 抽出される関係の例
抽出されたペアは、図2のようなレポート画面で確認することが出来ます。また、図3のようなネットワーク図を用いて、視覚的に関係を表現します。

図2: 抽出された関係のレポート画面

図3: 抽出された関係のネットワーク図による視覚化
|