AI個別技術と関連理論 5・統計1

統計学的手法も人工知能にはよく使われます。というよりも、その根本をなすと言ってもよいくらいのものです。実は何世紀も前からある統計学的テクニックなのに、現在「人工知能」と呼ばれているものもあります。「人工知能」がバズワードになっているから、それに乗っかって「人工知能」と言っているのですね。

 

実は大昔からある「AI技術」

最小二乗法による回帰分析

ばらつきのある数値の分布の傾向について、一次関数や対数曲線などの関数で近似しようとすることを「回帰分析」といいます。「最小二乗法」はそのための代表的な方法で、近似として考えている関数の係数や切片を、ばらつきのある数値の差の二乗和が最小になるように定めていきます。

1805年にアドリアン=マリ・ルジャンドルが出版したのが書物における初出ですが、1809年に数学界の超大物・ガウスが「そんなもん、1795年までにはオレが考えてたよ」と主張、発明者がどちらなのか、論争になっています。

いずれにせよ200年以上も前からある手法ですが、現在の人工知能でも基幹となっています。なにしろ超高速電卓であるコンピュータは、あっという間に膨大なデータの回帰分析をしますし、時として人間が気付かなかった傾向まで明らかにしますので、「これ、人工知能なんです」と言われれば、「ああ、そうなんだ」とみんな思ってしまうわけです。

上の図は直線(一次関数)への回帰をイメージしたものです。

このほか、たとえば年齢を横軸、身長を縦軸にとって表現したグラフを考えると、生まれたばかりの頃はかなり急速に身長が伸び、しだいに伸び方がゆっくりになり、10代なかばを過ぎるとあまり伸びなくなるので、対数曲線への回帰が示されるでしょう。

 

偏差値によるばらつき評価

たくさんある数値の中で、ある数値がどのような位置にあるかを数値化したものが偏差値です。これも人工知能研究が始まるよりずっと前の1860年代にイギリスのフランシス・ゴルトンによって発想が示されています。

ほとんどの人が経験している「テストの点数」で説明するのがわかりやすいでしょう。「標準偏差」を算定することがキモとなります。

① 平均点を出す

これは簡単です。クラス全員の得点を足して人数で割るだけです。

② 分散を出す

ひとりひとりの得点―平均点を計算し、出た値を二乗します。そして全員の二乗値の平均値を出します。これが分散です。

③ 標準偏差を出す

分散の平方根を出します。これが標準偏差です。②を見ればわかるように、「得点―平均点」が元になっているので、高得点や低得点の人が多い(ばらつきが大きい)と標準偏差の値も大きくなります。

④ ひとりひとりの偏差値を出す

(得点―平均点)÷標準偏差を計算します。この値には次のような性質があります。

・得点が平均点を上回っていれば正の値、下回っていれば負の値になる

・得点と平均点の差が大きいほど、絶対値の大きな値になる

・標準偏差が大きいほど絶対値の小さな値になる(全体のばらつきが大→絶対値が小)

⑤ わかりやすい数字にする

偏差値を10倍し、50を足す。これが模試の成績表で見慣れた形の「偏差値」です。平均点が偏差値50になるようになります(得点―平均点がゼロになるから④の偏差値もゼロなので)。

 

途中に書いたポイントを繰り返しておきます。

・標準偏差が大きい(全体のばらつきが大きい)と、偏差値の絶対値が大きくなりにくくなり、高偏差値も低偏差値も出にくい

・反対に標準偏差が小さい(全体のばらつきが小さく、平均点近傍に集まりがちである)と、偏差値の絶対値が大きくなりやすく、高偏差値や低偏差値が出やすい

・補足:偏差値は100を超えることも、マイナスになることもある

たとえば、100人のテストで99人が0点でひとりだけ100点を取ったら、その人の偏差値は150近くになり、同じく100人のテストで99人が100点を取り、ひとりだけ0点だったら、その偏差値は-50くらいになります。このように、ばらつきがきわめて小さい中で極端な値があると、その値はとても高い、あるいはとても低い偏差値を示します。

学力評価以外でも、偏差値はさまざまに応用されています。人工知能分野では、たとえばいろいろなセンサー類が入力に用いられます。センサーによる観測・測定には電気的ノイズがつきものなのですが、ノイズなのかシグナルなのか、偏差値による確率分布で識別することができます。確率が低い高偏差値・低偏差値の領域で異常に高い頻度で検出があれば、センサーに不具合があるか、センサーが検知しなくてよいものの遮断に問題があるなど、何らかの異常があると判断できます。

また、統計学的に有意な変動・変化の検出にも使えます。ある商品が急に普段よりも売れるようになったなど、頻度の変化が高い偏差値を示せば、その要因を調べればビジネスに役立つ知識が得られるかもしれません。

 

このように、人工知能研究がはじまる以前から先人たちが磨き上げてきた統計学というすぐれたツールがあり、人工知能技術にも広く応用されています。

次の記事では、機械学習と統計学を比較して見ていきます。