第10回日本OR学会中部支部シンポジウム ルポ

残暑も続く2013年9月20日(金)に、ウインクあいちの愛知県立大学サテライトキャンパスにおいて、第10回OR学会中部支部シンポジウムが「機械学習とデータマイニングによる知識発見」をテーマに、60名の参加者を迎えて開催された。ビッグデータの活用が叫ばれる今、機械学習とデータマイニングは、その有力な方法として期待されており、それらについて、4名の講師から先端的な内容から実際の応用例まで、幅広い内容でご講演をいただいた。

講演の様子1

一人目の講演者の大輪拓也氏(国立情報学研究所ビッグデータ数理国際センター)からは、近年、増加している検索連動型広告について、その仕組みから解説をいただいた。検索連動型広告とは、Web検索の結果画面に表示される広告であり、各キーワードに対して、各社が提示した入札価格に基づいて、検索結果画面における表示位置が決まるような仕組みになっているとのことである。広告の対象となるキーワードは企業によっては数億個にのぼり、それらを日々運用するためには、自動入札システムが欠かせない。そして、そのようなシステムを構築するためには、入札価格に対する効果、すなわち、その広告がクリックされる回数を予測する必要がある。その予測に機械学習などが用いられるとのことである。また、最近では、どのようなキーワードに対して、広告を出すべきかを、適当な二部グラフを利用して、自動で提案するようなアルゴリズムの開発が行われているそうである。大輪氏が指摘されたように、検索連動型広告には、機械学習に限らず、さまざまな情報技術が応用できる可能性を感じた。

二人目の講演者の鈴木英明氏((株)日立製作所日立研究所)は、機械学習を設備の異常検知に応用した事例について解説された。ここでいう異常検知は、設備が壊れかかっていることを事前に検知して、実際に壊れる前に修繕するためのものであり、JISの保全方式でいうところの状態監視保全にあたるとのことだった。そのような異常検知を機械学習により実現するためには、まず、設備の「正常データ」と「異常データ」を収集する必要があるが、「異常データ」がないことも多く、さらには、季節変動のために「正常データ」でさえ、変動することがあり、誤報と失報との戦いであるとのことであった。そのようなことに対応するために、VQPCAと呼ばれる手法等を応用し、それにより異常検知に成功した事例を紹介された。また、このような異常検知を実際に運用していく際の難しさについても話され、運用初期段階での精度の問題や、精度を上げるためには業務フローを変更する必要があることなどをご指摘された。実際の運用には困難も多いが、機械学習の有用性を実感できるご講演であった。

講演の様子2

三人目の講演者の河原吉伸氏(大阪大学産業科学研究所)からは、機械学習における劣モジュラ関数を用いた正則化についてのご講演があった。機械学習では、しばしば、モデルが学習データに合わせるために、かえって真のモデルから乖離してしまうことがある。これを過学習という。このような過学習を避けるための手法の一つが正則化である。具体的には、モデルとデータの差を表す損失関数に、正則化項と呼ばれるモデルが複雑になると大きな値を取る項を加え、それらを同時に最小化する。これにより、モデルの適合度と複雑度のバランスを取る。そのような正則化項として、近年、劣モジュラ関数のLovasz拡張となっているような連続関数が利用されている。特にグラフ構造を背景に持つ問題に対しては、正則化項を含めた最小化が高速に可能であるとのことである。さらに、ご講演では、正則化を用いた機械学習の応用例を紹介され、その有用性を解説された。機械学習の発展を感じるご講演であった。

四人目の講演者の宇野毅明氏(国立情報学研究所)からは、データマイニングの先端的話題である「データ研磨」についてご講演いただいた。データマイニングで得たい情報のひとつに、データの背後に潜む構造、具体的には、データの(必ずしも互いに素でない)まとまりがある。データマイニングの一手法であるパターンマイニングは、データの中に頻出パターンを見つける手法であり、これまで、それで得た頻出パターンを共通して持つデータをデータのまとまりとすることが多かった。しかし、それが必ずしも本来得たいデータのまとまりとは限らないということを、ご指摘された。このような問題に対処するために考案された手法が「データ研磨」であり、「データの揺らぎ」を類似関係に基づいて収斂することで、本来得たいまとまりを得るという発想を紹介された。手法が成熟してきたとき、改めて、本来の問題に立ち返り、真に求めたい答は何であったかを考えることの重要性を再認識するご講演であった。

ルポ担当:南山大学 小市俊悟