| No English page. |
| データマイニングとは |
言葉の由来
データマイニングはデータベースの研究の中で比較的新しい分野である. マイ ニング(mining,採鉱)という言葉には何ともいえない怪しげな魅力がある.現 在ではギャンブラー的な投機家,ひいては詐欺師のような 意味で使う「山師」 は,元々は鉱山経営者や 鉱山採掘調査技師(mining engineer)のことであ る.広大な大地の中から金や銀,石炭の鉱脈や水脈を発見する事業は,ひとつ にはギャンブルの要素があり,また,鉱山採掘師の理論は常人には 詐欺か超 能力としか思えない不思議なものだったに違いない.伝承によれば,名高い弘 法大師は多くの温泉や水脈を発見した 優れた鉱山採掘師だったが,その行為 は「弘法の奇跡」として 言い伝えられるのがほとんどである.
弘法大師の時代はさておき,現在,バーコードやクレジットカードなど最近の データ収集技術の大幅な進歩と,記憶装置の劇的な低価格化により,情報収集 はたやすい作業になり,山に例えられるほど巨大なデータ(数ギガからテラ) がすでに存在する.特に,従来は敬遠されがちだった,時間情報(タイムスタ ンプ)の入った 履歴データの収集も可能になってきている.
この山のようなデータベースから属性やデータ間に成り立つ規則を絞りだし, 営業戦略を立案する上で役に立つ,規則・法則のたぐいを得たいという自然な 欲求が生まれる.ただし現行のデータベースシステムは検索・集計の簡易化と 効率化を 目標につくられており,残念ながら規則生成を目的には作られたわ けではない.
しかし取り合えず第一歩は,生データをデータベースに格納し 検索可能な状 態にしたいところである.このようなシステムは 大福帳システム, Information Warehouse,Data Warehouse 等と呼ばれている.
従来のオンライン・ トランザクション処理 (OLTP) が定型の問い合わせ,更 新処理が中心だったのに対して,Information (Data) Warehouse 等の利用形 態は,データ検索・集計等のデータ解析作業が中心となる.従って,そのため の問い合わせ高速処理が望まれ,オンラインで実行できるほどの速度を達成す るための研究が OLAP (On Line Analytical Processing) の名のもとに関心を 集めている.
特に頻繁に使われ,かつ速度が要求されるのは効率的なアクセスパスが設定さ れていないデータベースへの非定型の問い合わせであり,典型的な例は集計作 業である.例えば,顧客(Customer)が部品(Part)をどの問屋(Supplier)から いくら(SalesPrice)で購入したかを格納した関係 R から,部品と顧客の組合 せごとの売上表をつくる作業がある.この目的のためには,次のような問い合 わせ文をつくればよい. SELECT Part, Customer, SUM(SalesPrice) AS Sales from R GROUP BY Part, Customer;ユーザーはさらに,部品と問屋との組合せや,部品別等の 様々な組合せで売 上高を見る問い合わせをするであろう. 様々な属性の組合せで問い合わせを することを,多次元問い合わせと呼び,問い合わせの結果はデータキューブと 呼ぶが,その処理の高速化はデータベースの学会や研究開発の現場で ホット な話題となっている.ちなみに 1996 年度のACM SIGMOD における最優秀論文 賞は データキューブ生成の高速化手法を提案した スタンフォード大学のグルー プに贈られた.
多次元問い合わせは,従来型の検索・集計作業を効率化するのには有効である が,データベースに潜む規則性を導き出すようなデータ解析の作業には向かな い. 例として,数十の属性を含むデータベース,例えば銀行における 数百万顧客 のデータベースを考えよう.属性としては,当座取引有無・公共料金引落有無 等の2値属性や,血液型等の離散属性,普通預金残高・年齢・取引期間等の数 値属性 があるとする.いま 「先月発売した金融商品 A が売れている顧客層 を 明日の朝まで特定したい」とする.いま条件 X を満たす顧客は高い確度で 金融商品 A を購入する というルールを条件 例えば,(当座取引有無 = 1)や,(当座取引有無 = 1)かつ(公共料金引落 有無 = 1) などが条件Xの例である.このような条件部をもつルールを 離散値属性間相関ルールと呼ぶ.離散値属性が数十 数百ある場合には,システムが自動的に確度の高い条件を取り出してくれると 助かる. また数値属性を使った条件としては,預金残高が区間 [X,Y] に入ることを示 した また年齢と預金残高のペアがある連結領域 R に入ることを 表現した 以上のような規則を大規模データベースから高速に抽出しようとするのが,デー タマイニング・システムである.
|
| Last modified 30 June 1998 |