セッション詳細

企画セッション1:学習理論

  • 日時:11月25日(水) 10:35 – 12:35
  • 担当:鈴木 大慈(東工大)

大規模機械学習のための事例と特徴のセーフスクリーニング

大規模データに対する機械学習問題において,モデルへの影響が小さいと思われる事例や特徴をあらかじめ取り除いておくことができれば,効率的な学習が可能となる.特に,スパースモデリングではモデルが一部の事例や特徴のみに依存するため,モデルに影響を与えない事例や特徴を取り除いて学習してもすべてのデータを用いて学習した場合と同じモデルを得ることができる.しかしながら,一般にはどの事例や特徴が不要であるかを学習前に知ることができないため,ヒューリスティックなスクリーニングを用いると重要な事例や特徴を誤って除去してしまう誤検出リスクがある.一方,最近提案されたセーフスクリーニングと呼ばれるアプローチを用いると学習後のモデルにおいて確実に不要であるものを同定することができ,誤検出リスクのないスクリーニングが可能となる.本講演では,まず,SVMにおける事例のセーフスクリーニングとLASSOにおける特徴のセーフスクリーニングを紹介する.続いて,セーフスクリーニング研究で培われた凸最適化技法がさまざまな他の機械学習問題にも有用であることを実例を通して解説する.

Fast Computation of Wasserstein Distances and Applications to Parameter Estimation

Optimal transport distances (a.k.a. Wasserstein distances or Earth Mover’s distances, EMD) define a geometry for empirical measures supported on a metric space. After reviewing the basics of the optimal transport problem, I will show how an adequate regularization of that problem can result in substantially faster computations. I will then show how this regularization can enable several applications of optimal transport to parameter inference within the framework of minimum Wasserstein distance estimators.

非スパース性と高次元データの分類

高次元データの解析に、しばしば「スパース」という用語を見かける。しかし、実際の高次元データがスパースな構造をもつとは限らない。本講演は、敢えて「非スパース性」に注目する。まず、高次元データの非スパース性を遺伝子発現データで例示する。高次元・非スパースな枠組みでは、通常用いられるマハラノビス距離に基づく分類法は、最適性をもたないことを明らかにする。高次元データの特徴を捉えた非スパース性を利用することで、高次元データを高精度に分類でき、さらに計算コストが大幅に削減されることを示す。時間に余裕があれば、非スパース性を用いた高次元データのPCA・クラスター分析や統計的推測にもふれる。

企画セッション2:博士課程学生招待講演

  • 日時:11月25日(水) 16:00 – 18:00
  • 担当:佐藤 一誠(東大)

比較バンディット問題における最適アルゴリズム(COLT2015採択論文)

バンディット問題(multi-armed bandit
problem)は、情報の活用と探索の間のトレードオフをモデル化した問題である。バンディット問題にはいくつかの亜種があるが、そのうち比較バンディット問題(dueling
bandit problem)と呼ばれるものは、一対比較によるフィードバックを用いて最適化を行う。比較バンディット問題は、検索エンジンのランキングの最適化などへの応用が考えられる。本研究では、比較バンディット問題における理論的な性能限界の導出およびそれを達成するアルゴリズムを提案する。

整数格子点上の劣モジュラ被覆に対する高速アルゴリズム(NIPS2015採択論文)

近年、劣モジュラ最適化は、様々な機械学習タスクに応用され注目を集めている。中でも、劣モジュラ被覆と呼ばれる問題は、文書要約やセンサー配置など多くの問題で共通に現れる定式化として知られている。
本研究では、劣モジュラ被覆に対して、整数格子点上の劣モジュラ性を用いた拡張を提案する。これにより、既存モデルでは捉えきれなかった複雑な状況も統一的に扱えるようになる。また、整数格子点上の劣モジュラ被覆に対して、効率的な近似アルゴリズムを提案し、拡張モデルでも高速に最適化が可能であることを示す。実データおよび大規模人工データを用いた数値実験も示す。
本研究は、NIIの吉田悠一准教授との共同研究である。

能動学習による多関係データセットの構築(WWW2015採択論文)

セマンティックウェブ、知識ベースなど、様々なデータは、二主体間の複数種類の有向関係で記述できる。これを多関係データと呼ぶ。ウェブや科学論文から多関係データセットを自動抽出する研究が多く行われているが、常識的な知識などが抽出できないという欠点がある。本講演では、能動的に人に関係の有無を尋ねる能動学習を用いて多関係データセットを構築する手法を提案する。実データを用いた実験により手法の有効性を確認する。

パネルディスカッション

企画セッション3:データ駆動型科学

  • 日時:11月26(木) 9:30 – 11:30
  • 担当:津田 宏治(東大)

マテリアルズインフォマティクスの現状と将来展望

データ駆動型で新材料の発見や法則の発見に導こうというMaterials Informatics分野が,米国のMaterials Genome Initiative(MGI)など,世界的に大きな盛り上がりを見せている.講演者は材料科学が専門で,量子力学に基づいた第一原理計算による研究や,それに基づいた合成や評価の実験を行ってきた.近年,計算機と計算技術の進歩により,第一原理計算の精度と速度が大幅に増大し,多数の計算結果が比較的短時間に得られるようになってきた.米国ではMaterials Projectなど第一原理計算結果のdatabaseも構築されている.講演者らのグループでは,第一原理結果を機械学習に適用することで,バーチャルスクリーニングによる新材料の発見や,高精度かつ高速計算手法の開発に成果が上がっている.その進捗状況と,今後の展望についてお話ししたい.

創薬分野における機械学習応用と情報科学への期待

計算機を用いて創薬を目指す「インシリコ創薬」では,分子や生体反応を原子や量子に基づく物理モデルとして扱う計算化学的アプローチと,統計的記述に基づく数理モデルとして扱う情報科学的アプローチが用いられている.ビックデータ時代に突入した今日,医薬品開発現場でも,ゲノム情報や臨床情報などの様々な大規模データを的確かつ統合的に解析することにより,如何に合理的に医薬品へと結びつけていくかということが大きな課題となっており,情報科学的アプローチに大きな期待が寄せられている.本講演では,創薬における情報科学的アプローチ,特に機械学習の応用事例について紹介する.

産業連関分析が環境・資源政策に果たす役割

  • 加河 茂美(九大)

持続可能な社会を設計するためには,資源の枯渇,環境汚染,地球温暖化といった問題に深く関わっている主体の特定化,影響度の計測,責任分担の在り方が決定的に重要である.IPCCのAR5やUNEPのLCA Guidelinesなどの重要な政策課題・
指針を議論する場において,産業連関分析がこれまで環境・資源政策に果たしてきた役割について説明する.また,従来の産業連関分析の限界と産業連関分析とネットワーク理論との融合の重要性について述べる.

企画セッション4:機械学習と組合せ最適化

  • 日時:11月27(金) 9:30 – 11:30
  • 担当:河原 吉伸(阪大)

グラフカット:2次劣モジュラ関数最小化でどこまでやれるか

  • 石川 博(早大)

無向グラフ確率モデルであるマルコフ確率場が、近年コンピュータービジョンや画像処理で広く応用されるようになった。その最適化手法として、2次劣モジュラ関数の最小切断アルゴリズムによる最小化を使ったグラフカットという一連の手法が広く使われている。本講演では、2次劣モジュラ関数最小化を基本とし、より一般の関数の最小化問題をそこに帰着することで実現されるいくつかのアルゴリズムを紹介する。

劣モジュラ関数最大化とその機械学習への応用

  • 垣村 尚徳(東大)

劣モジュラ関数は組合せ最適化の基本的な概念であり,その最大化問題は機械学習のさまざまな場面で現れる.たとえば,企業が新商品を顧客にPRするために広告を打つ状況を考えよう.広告を打つ場所の候補としては,テレビ・ラジオ・新聞などのほか,SNSなどのウェブ上の媒体もある.
限られた予算のもとで広告の宣伝効果を最大にするためには,各媒体にどのように予算を配分すればよいだろうか?このような企業のマーケティング活動は,劣モジュラ関数を最大化する問題として定式化できる.このほかにも,センサーの効率的配置や文書要約,クチコミマーケティングの解析など多くの応用が知られている.本講演では,広告予算配分問題を中心に,劣モジュラ最大化問題の基礎から最近の進展までを紹介する.

劣モジュラ関数による構造と学習の橋渡し:構造正則化,確率的劣モジュラ

劣モジュラ関数は、集合関数における凸関数に相当する関数で、最適化を考えたときの性質の良さと、応用を考えたときの表現力をあわせもった関数であることが知られている。本講演では、このような劣モジュラ関数の性質を利用した、計算と構造の橋渡しとしての劣モジュラ関数を用いた機械学習における最近の研究について紹介する 。まず、変数(や基底)間の構造的な依存関係を学習に取り込む枠組みである、構造正則化における劣モジュラ関数の利用について紹介する。さらに、同様の構造を利用するための枠組みみとして、劣モジュラ関数を用いた確率分布による推論に関するアプローチについてもふれる。