第1回 IBISMLチュートリアル


第1回 IBISMLチュートリアル

「実践! 機械学習—現実に生きる学習技術の基礎と実例」

■主催:電子情報通信学会 情報論的学習理論と機械学習研究会
http://ibisml.org/

連絡事項 (2011/01/10 19:08 更新)

  • 第1回 IBISMLチュートリアルは盛況のうちに終了しました.ご参加いただきありがとうございました.
  • 当日は受付の混雑が予想されます。混雑を避けるために、できるだけお早めにお越しいただけますようお願いいたします。
  • チュートリアル資料として印刷物を当日に配布します。
  • 参加費領収書は当日配布します。それ以前の個別対応はお引き受けできませんので予めご了承ください。
  • キャンセル待ちの方は、12/24までに連絡がなければ、残念ながら今回は受付できなかったこととご了承ください。
  • 講義スケジュール、各日2人目と3人目の講義の間に15分間の休憩を入れるべく変更しました。

目的

大量のデータが溢れ、価値ある情報を発見する技術が求められている。そのような技術として期待の大きい機械学習とデータマイニングについて、基礎から実践までを解説する。特に、ビジネスの具体的応用場面を想定して、必要な基礎概念をわかりやすく解説するとともに、実際に価値ある情報を引き出すための、一般の教科書では決して教えてくれないノウハウについても紹介する。さらに、学会の最先端をいく技術にあって応用性が高い技術についてもIBISMLならではの独自の視点をもっていくつか紹介する。

想定対象

企業や大学で、機械学習やデータマイニング技術を具体的な応用場面に利用したいと考えている研究者、ユーザ。とくに時間がなくて、短時間でできるだけ基礎的かつ実践的な知識を吸収したいと考えている方。

参加費

1日参加 10000円 2日参加 20000円

期間

2012年1月11日(水)12日(木)

場所

東京大学工学部6号館セミナー室AD

定員

1/11, 1/12それぞれ80名

プログラム

1/11(水)
●10:00-12:00 鷲尾隆(大阪大学)
・タイトル:「データからの構造発掘とその実適用
-グラフマイニングと統計的因果推論の基礎と展開-」
・キーワード:グラフ構造マイニング、DAG、統計的因果推論
・応用分野:化合物解析、遺伝子発現NW、医療データ解析
・概要:
情報通信ネットワークやユビキタスセンシング、科学的観測網など、近年の様々な情報ソースから得られるデータは、グラフなどのトポロジカルな構造を有するもの、あるいは同様な構造を有するプロセスから生成されたものが多い。本講義の前半において、構造を有するデータの中から特徴的構造を抽出するグラフマイニングやグラフ検索の基礎手法について説明する。そして、その応用として化学化合物解析や医療データ解析への適用例を示す。また、後半においては、データからその各変数を生成した過程の構造を推定する統計的因果推論手法の基礎と最新研究を説明する。更にその遺伝子発現ネットワーク推定や生体信号の生成過程推定への応用について説明する。

●13:00-15:00 山西健司(東京大学)
・タイトル「異常検知・リスク分析のための機械学習 その1」
・キーワード:外れ値検知、変化点検知、異常パタン発見
・応用分野: セキュリティ、不正・詐欺検出、マーケティング、SNS
・概要:
大量のデータから、通常のパタンから逸脱した異常を発見することを「異常検知」とよぶ。異常検知は、システム挙動データからの故障発見、アクセスログからの攻撃検出や未知ウイルスの検出、ネット上の発言データからのトピック検出など、ビッグデータ時代に計り知れないビジネスニーズを含んでいる。本講義では異常検知の基礎的手法として、外れ値検出、変化点検出、異常行動パタン検知手法にスポットを当て、これらについての基礎的手法から最新の手法までの代表的なものをわかりやすく、かつできるだけ統一的に解説する。また、これらを現実のセキュリティ、障害検出、SNS解析などに用いる方法を実例を用いて解説し、どのように価値ある知識につなげるかについて解説する。

●15:15-17:15 井手剛(IBM東京基礎研究所)
・タイトル「異常検知・リスク分析のための機械学習 その2」
・キーワード:相関異常、回帰モデル、GGM、構造学習
・応用分野: センサーデータへの適用(生産設備、運輸、など)
・概要:
本講義では、「データからの構造発掘とその実適用」および「異常検知・リスク分析のための機械学習その1」を受けて、より産業応用に近い観点から異常検知・リスク分析のための基礎技術の解説を行う。多変量正規分布のノイズモデルに基づく諸手法を概観した後、産業上に非常に豊富に現れる物理センサーデータの特徴を整理する。その後、線形回帰モデルに基づく統計的プロセス制御の概要を解説する。また、その発展として、グラフィカル・ガウシアン・モデルに基づく最近の発展と応用例を述べる。

1/12(木)
●10:00-12:00 上田修功(NTTコミュニケーション科学基礎研究所)
・タイトル:「パタン認識のための機械学習 その1(生成モデル)」
・キーワード:生成モデル、ベイズ学習、潜在変数モデル
・応用分野:メディア処理(音声、画像、テキスト)
・概要:
近年、メディア(音、画像、テキスト)処理の研究分野で最新の機械学習技術が適用されている。今後、ビジネス応用への発展の可能性も高いと言える。特に、観測データの背後にあるデータ生成過程を確率分布の形でモデル化する「生成モデルアプローチ」が最近多用されている。しかし、生成モデルアプローチを応用する立場で解説した資料等が殆どないため、非専門家が運用するには敷居の高い技術と言える。そこで、本チュートリアルでは、生成モデル的機械学習技術を、メディア応用の観点で、基礎事項から適用方法まで、分かりやすく解説する。

●13:00-15:00 杉山将(東京工業大学)
・タイトル:「パタン認識のための機械学習その2 (識別モデル)」
・キーワード:SVM(カーネル), スパース正則化、識別モデル、クラスタリング
・応用分野:脳波解析,ロボット制御
・概要:
パターン認識には,「パターン認識のための機械学習 その1」で紹介した生成モデルアプローチ以外に,パターンの認識に用いる識別関数を直接学習する識別モデルアプローチがある.識別モデルアプローチは,データ生成過程に関する十分な知識が得られない場合に特に有効であり,信号処理,画像認識,自然言語処理,ロボット制御,脳波解析,バイオインフォマティックスなど,様々な応用分野で成功を収めている.しかし,識別モデルアプローチには多様な学習手法があり,非専門家がこれらを習得するのは必ずしも容易ではない.そこで本チュートリアルでは,スパース正則化,半教師付き学習,サポートベクトルマシンなどの代表的な識別学習手法を,統一的な枠組みのもとで分かりやす
く解説する.また,これらの脳波解析,ロボット制御への応用例も紹介する.

●15:15-17:15 大羽成征(京都大学)
・タイトル:「高次元システム理解のための機械学習と統計的検定」
・キーワード:次元削減、因子化、多重検定
・応用分野:応用:医学・生物学データ解析
・概要:
医学・生物学は、生体高分子挙動を網羅的に測定する手法の発展によって、高次元システム理解を目指すデータサイエンスとしての側面を広げつつある。高次元システムを扱う一般のデータマイニングもこれを追ってゆくであろうと思われる。そのなかで、機械学習技術の役割は大きい。そこで本講義では、ここまでに行われた「生成モデル」「識別モデル」の知識を踏まえ、医学・生物学応用を例にとりながら、高次元システム理解のための「因子化」「次元縮約」に基づくデータ解析手法を説明する。また、解析結果の信頼性を担保するための「統計的検定」の方法を説明する。とくに多数の仮説を同時に取り扱う「多重検定」の状況において、「第一種過誤」や「検出力」といった重要概念が、多重性のもとでどのように変化してゆくかを解説し、新しい検定の世界を概観する。

お申し込み方法

以下フォームにお申込情報を書き込みのうえ、送信ボタンを押してください。

  • 定員になり次第、締め切ります。申し込みはお早めにお願いいたします。
  • 申し込みが受付けされましたら、メールにて参加料の振込方法をお伝えしますので、所定の口座に事前に参加料をお振込み頂くようお願いいたします。
  • (追記)
    • 申し込み確認メールが送付されるまでに、時間がかかっております。ご心配をおかけいたしておりますが、もう少々お待ち願います。
    • 参加資格はとくに設けておりません。電子情報通信学会会員でない方の参加も歓迎いたしております。