第一日目:イベント概要

招待講演: Strategies & Principles for Distributed Machine Learning
Eric Xing, カーネギーメロン大


The rise of Big Data has led to new demands for Machine Learning (ML) systems to learn complex models with millions to billions of parameters that promise adequate capacity to digest massive datasets and offer powerful predictive analytics (such as high-dimensional latent features, intermediate representations, and decision functions) thereupon. In order to run ML algorithms at such scales, on a distributed cluster with 10s to 1000s of machines, it is often the case that significant engineering efforts are required — and one might fairly ask if such engineering truly falls within the domain of ML research or not. Taking the view that Big ML systems can indeed benefit greatly from ML-rooted statistical and algorithmic insights — and that ML researchers should therefore not shy away from such systems design — we discuss a series of principles and strategies distilled from our resent effort on industrial-scale ML solutions that involve a continuum from application, to engineering, and to theoretical research and development of Big ML system and architecture, on how to make them efficient, general, and with convergence and scaling guarantees. These principles concern four key questions which traditionally receive little attention in ML research: How to distribute an ML program over a cluster? How to bridge ML computation with inter-machine communication? How to perform such communication? What should be communicated between machines? By exposing underlying statistical and algorithmic characteristics unique to ML programs but not typical in traditional computer programs, and by dissecting successful cases of how we harness these principles to design both high-performance distributed ML software and general-purpose ML framework, we present opportunities for ML researchers and practitioners to further shape and grow the area that lies between ML and systems.

 

企画セッション1: 統計理論


順序構造は,数学や計算機科学における本質的な階層構造のひとつである.特徴間の高次相関を扱うときに現れる集合の包含関係をはじめとして,文字列とその接頭辞や,グラフと部分グラフなどが順序構造をもつ.本講演では,順序構造を利用した情報幾何的な解析手法について紹介する.

順序構造上の確率分布がなす空間には,双対平坦な構造が自然に導かれる.この性質を用いることで,変数間の高次の統計的関連を情報理論的に解析できる.さらに,確率モデルの学習からパターンマイニングまで,いろいろなデータ解析手法を情報幾何で調べることができる.

統計的仮説検定の頻度論的信頼度(p-値)は科学的方法において広く利用されてきた.一方で,しばしばその問題点が指摘され,近年ではベイズ統計学の事後確率が用いられることも多い.この問題は多重検定,多重比較法とも密接に関わっている.本講演では,頻度論とベイズの違いをブートストラップ・リサンプリングにおけるサンプルサイズの違いとして説明する.ベイズは観測データのサンプルサイズ(m=n)と同じにすればよいが,頻度論はサンプルサイズを負にしたもの(m=-n)に相当する.仮説領域の境界曲面の「平均曲率」がこのバイアスの原因であり,マルチスケール・ブートストラップ法やダブルブートストラップ法によって曲率の影響を修正できる.この方法は遺伝子発現の階層型クラスタリングや分子進化系統樹推定に用いられている.ダブルブートストラップ法のバイアスが「曲率の曲率」に相当するなどの最近の結果についても触れる.

 

テンソルは複数のデータソース間の関係を記述するのに有用なデータ構造であり,推薦システムやマルチタスク学習,時空間解析など,機械学習の様々な場面で用いられている.テンソルは行列の拡張と見なせ,行列のランクに相当する量がテンソルにも定義できる.しかし,テンソルの低ランク性と行列の低ランク性には様々な違いがあり,低ランクテンソルをデータから推定する方法やその推定誤差の理論には不明な点が多い.本講演では,テンソルの性質やいくつかの推定方法を紹介し,それらの汎化誤差の理論を示す.また,通常のテンソルを拡張した無限次元空間の多重線形写像としての非線形テンソルを考え,その推定方法と汎化誤差理論を紹介する.特に,汎化誤差の最適性について議論し,計算量と統計的性質との関係を論じる.