第4回IBISMLチュートリアル


お知らせ

  • 2015.11.04  概要を公開しました。
  • 2015.10.07 参加申込を開始しました。
  • 2015.10.26 当日のスケジュールを公開しました。
  • 2015.04.05 担当講師の情報を公開しました。
  • 2015.01.30 ホームページを公開しました

開催情報

想定対象

  • 企業や大学の研究者で機械学習を専門としていない方
  • 短時間でできるだけ基礎的かつ実践的な知識を吸収したいと考えている方
  • 機械学習を具体的な問題に応用したいと考えている方

チュートリアルスケジュール(受付開始: 9:00)

10:00 – 10:05 オープニング

10:05 – 11:35 確率的最適化から始める機械学習入門

11:35 – 13:00 昼食

13:00 – 14:30 劣モジュラ最適化に基づく特徴選択と構造正則化入門

14:45 – 16:15 深層学習入門

16:30 – 18:00 多重検定法入門

チュートリアル概要

確率的最適化から始める機械学習入門

鈴木 大慈 (東京工業大学)

機械学習は,データから情報を抽出し人間の意思決定や知識発見などに役立つ知的情報処理を実現する方法論です.本チュートリアルでは,機械学習の基本事項と,それを実現させる効率的な確率的最適化技法を解説します.

機械学習の基本事項の解説においては,機械学習の基本的な考え方および定式化を紹介し,また学習されたパラメータの漸近的な振る舞いを解説します.特にモデル選択の問題とスパース学習手法を解説します.

後半では機械学習の計算手法として確率的最適化の解説をします.確率的最適化は大量データにおける学習に有用な手法です.学習するパラメータの更新を毎回全ての観測データを用いて行うのではなく,その一部を用いて行う方法で,毎回の更新にかかる計算量が小さくて済むという利点があります.

本チュートリアルでは様々な確率的最適化の手法を紹介し,それらの理論を通して各種手法の性質を解説します.

参考文献 確率的最適化,講談社サイエンティフィック

劣モジュラ最適化に基づく特徴選択と構造正則化入門

河原 吉伸 (大阪大学)

劣モジュラ関数は、「凸性」にあたる構造を持つ集合関数として知られている。近年劣モジュラ関数とその離散構造に関する最適化理論は、本チュートリアルでふれる特徴選択をはじめ、機械学習における様々な場面で重要な役割を担うことが示され注目されている。

本チュートリアルでは、特徴選択における劣モジュラ関数とその最適化理論がもつ役割について、2つの側面から説明する。まずは、特徴選択を直接集合関数最適化として考えたときに、この問題が一定の条件下で劣モジュラ関数の最大化問題へと帰着されることについて説明する。これにより、単純な手順で実行可能な貪欲法を適用することで、理論的保証を持つ解が得られることについて説明する。

次に、正則化に基づく疎性推定の拡張である構造正則化と、劣モジュラ関数との関係について話を進める。(離散的な関数である)劣モジュラ関数を連続関数へと緩和したものを正則化項として用いることで、多くの構造的疎性を表現でき、また必要となる最適化が高速な最適化アルゴリズムで計算可能となることについて説明する。

参考文献 劣モジュラ最適化と機械学習, 講談社サイエンティフィック(2015年12月刊行予定)

深層学習入門

岡谷 貴之 (東北大学)

本チュートリアルでは深層学習(ディープラーニング)を基礎から解説する.近年,深層学習は理論と応用の両面で盛んに研究が行われてきている.その結果,応用範囲は着実に拡大してきたが,そこで使われている方法自体にあまり大きな進展は見られていない.

このことを踏まえ,本チュートリアルでは深層学習を構成する各方法論をなるべく広く取り上げる.具体的には,フィードフォワードネットワークと誤差逆伝播法を用いた学習に始まり,畳込みネットワーク,オートエンコーダ,リカレントネットワーク,ボルツマンマシンを順に説明する.最後に,これらを組み合わせた最近の応用事例をいくつか紹介する.

参考文献 深層学習,講談社サイエンティフィック

多重検定法入門

瀬々 潤 (産業技術総合研究所)

技術の進歩により,大規模なデータ収集が頻繁に行われるようになりました.そして,これらのデータを解析する際には,大量の検定が発生します.生命情報学における代表的な例としては,全ゲノムに渡って一塩基置換(SNP)を観測する全ゲノム関連解析(GWAS)があり,数十万から数百万,場合によっては1,000万を超える特徴量を観測し,各特徴量に対して疾患との関連の有無を調べる検定が発生します.

このような複数の検定を同時に行うと,検定数の増加に伴って偽陽性が急激に増大する多重検定の問題が知られています.本講演では,GWASを例として,多重検定問題の導入から始め,偽陽性の基準として用いられている指標であるFamily-wise error rate (FWER)やFalse discovery rate (FDR)を導入します.そして,それぞれの基準で,偽陽性を抑える多重検定補正手法を導入します.

その上で,広く利用されている手法には限界があり,複数のSNP間が相乗効果を起こすような場合を調査すると,有意な結果が1つも現れない問題点が起こります.この問題点を解決し,相乗効果を考えた場合でも有意な結果の存在を確認できる無限次数多重検定法(LAMP)を紹介します.

参考文献 生命情報処理における機械学習, 講談社サイエンティフィック (2015年12月刊行予定)