データマイニング
「マイニング Mining」は mine の ing形ですね。mine には「私のもの」という意味や「地雷・水雷」という意味もありますが、ここでの意味は「採掘する」です。「データマイニング」の意味は、一言で言うと「大量のデータの中から、従来知られていなかった新しい知識を得ること」になります。
1989年に”Knowledge Discovery in Databases”と称するワークショップがアメリカのデトロイトで開かれましたが、これが現在のデータマイニングの元になっています。1990年代に入りコンピュータの性能が大幅に向上したこと、そして記憶媒体やネットの情報量が爆発的に増大したことをきっかけに、さかんに研究開発・利用されるようになりました。
前の記事に書いたように、機械学習とデータマイニングとは用いる手法などの面で重なる部分が多く、よく似ています。両者を分けるとすれば、機械学習は「既知の知識を機械に学ばせる」のに対し、データマイニングは「未知の知識を機械に発見させる」ことをテーマとする、といった感じになります。
では、データマイニングに使われるいろいろな手法を紹介していきます。
強化学習
強化学習は「教師なし学習」のひとつです。AIが環境とインタラクティブに相互作用しながら、報酬を最大化する行動パターンや方針を模索し、つかんでいきます。
古典的な迷路脱出ロボットや、チェス、オセロなどのゲームに応用できるAIを思い浮かべるとイメージしやすいでしょう。
迷路脱出ロボットで言うと、
① 環境を観測する……ゴールと自分の位置を確認する
② 行動を取る……ゴールに近づくための移動をおこなう
③ その結果、環境が変化する……ゴールと自分の位置関係が変化する
④ 「報酬」を受け取る……「ゴールに接近」など成果が評価される
というステップを繰り返し、効率的な迷路の抜け方を見つけていく、というはたらきです。AIが自分から何かアクションを起こし、その結果から報酬をできるだけ高くする行動ポリシーを抽出していく点に特徴があります。
もっとわかりやすく言うと、人間誰しもやっている「経験から学ぶ」というのをマシンにやらせる感じです。新人営業マンが、仕事のノウハウを一切教えられることなくどんどん飛び込みの営業をかけ、やみくもにいろいろなやり方を試していく。たいてい失敗しますが、たまにうまくいった時のやり方を覚えていく……ということです。マシンであれば、何千回何万回やっても心が折れることもありません。膨大な失敗をしながら、数少ない「マシなやり方」をつかんでいきます。
この手法は何人もの名人を打ち破ったAI囲碁ソフト・AlphaGoにも応用されていますし、近い将来実現しそうな自動運転にも応用されています。
パターン抽出
POSを利用するスーパーやコンビニ、そしてeコマース・サイトなどではすでに広く利用されています。こうした業者では、一般消費者の購買行動や商品ページの参照(クリック行動)が日々データ化されて蓄積されますので、これを元にデータマイニングが可能です。
現在の高性能コンピュータであれば、地域、曜日、時間帯、天候などといった多元データを、どんな商品が買われたかと関連付けながら串刺しで統計処理できます。その結果見えてくる販売実績の傾向から、効率的な仕入れとロジスティクスが可能になります。
NTTは自社の携帯電話から得られるGPS位置情報を元に、膨大な人の流れをデータ化し、曜日や時間帯、天候と、東京都内のさまざまな地点におけるタクシー需要をAIで分析、タクシーの効率的な集客に役立つアプリケーションをタクシー会社に実験的に提供しており、実績を上げています。
クラスタリング(クラスター分け)
前の記事で「農場を5つの農協に分けて所属させる」問題を例に取り上げましたが、その手法はデータマイニングにも応用可能です。
たとえば、多くの人のWeb閲覧記録を、年齢層や性別、職業など2~3次元のデータでクラスター分けすると、Web閲覧のパターンでカテゴライズできる特徴的なグループが見つかるかもしれません。もし見つかれば、eコマース販促のターゲットになり得ます。
回帰分析
線形回帰、ロジスティック回帰、サポートベクトル回帰などの手法があります。
実際に応用されている例としては、企業の過去のデータから信用リスクを推計するものや、ある商品に反応する消費者を特定しダイレクトマーケティングに役立てる応用例があります。
クラス分類
決定木、サポートベクターマシン、単純ベイズ分類器などの手法があります。
決定木 decision treeを見てみましょう。これはリスクマネジメントや意志決定支援などに応用されます。
ウィキペディアにわかりやすい例があります。
ゴルフ場の経営者が、客がゴルフをしに来るか否かを、天気、気温、湿度、風の強弱といったデータを元に調べ、「もっともゴルフ場に客がくるパターン」とそうではないパターンを抽出しています。
その結果から、「曇りの日」はもっとも多くの客が来ると見込まれ、「晴れの日」であっても湿度が70%を超えると客が来にくくなり、「雨の日」でも風が強くなければ客がいくらか来る……などといった見込みが立てられます。
こうした見込みから、ゴルフ場の経営者はその日その日のスタッフ人員配置を考えれば良いということになります。
以上のように、データマイニングは科学の研究や医療の現場、そして実際的なビジネスの場面でたいへん有用なツールとなっています。今後もますます広い、さまざまな領域での応用が進んでいくと考えられます。