企画セッション

場所:メインホール(1階)

企画セッション1 [10月30日(月) 10:30 – 12:30]
Vision and Languageの最前線

オーガナイザー:菅沼雅徳(東北大学)

西田光甫(NTT)

大規模言語モデルとVision-and-Language

ChatGPTに代表される大規模言語モデル (Large Language Model; LLM) により,自然言語処理の水準は飛躍的に発展した.自己教師あり学習によって汎用的な基盤モデルを学習するアプローチはVision-and-Languageの分野でも用いられ,CLIPやGPT-4といったモデルが次々に登場している.またこれらの基盤モデルは様々なタスク・サービスに導入され,世間を賑わせ続けている.本講演ではまず代表的な基盤モデルを紹介し,その後基盤モデルの応用例に触れながら現在の到達点について議論する.

西村太一(京都大学 (現: LINEヤフー))

作業動画と手順書を対象としたマルチモーダル理解

作業動画と手順書の対応関係をコンピュータが学習することは、作業補助や動画検索といった産業上重要なトピックの1つである。また、言語指示に基づいて作業を実施するロボットといった、より挑戦的なタスクへの発展も期待されている。こうした背景から、本講演では、作業ドメインにおけるVision&Languageの関連研究について紹介する。
最初に、Web上にアップロードされた作業動画とそれに付随する言語情報から学習する研究について紹介する。次に、ARやロボティクスなどへの応用を見越して、近年特に進化が著しい一人称視点の作業動画に焦点を当てた研究について説明する。最後に、我々が特に注力している分野である、科学実験を対象としたVision&Languageの研究について触れ、今後の課題と研究の方向性を議論する。

栗田修平(理化学研究所)※オンライン講演

テキストからの実世界理解に向けて

大規模言語モデルにより自然言語処理・理解技術は大きな進歩を遂げつつあるが、テキストに閉じない実世界の対象、特に視覚や動作情報に対応してテキストを理解することは非常に困難な課題である。本発表では、テキストの内容を実世界の対象と対応付けるグラウンディング技術について、その花形である参照表現理解やオープン語彙物体認識技術を解説し、発表者の最近の研究内容である、テキスト指示に従って三次元環境でナビゲーションや質問応答を行う研究、動画データセット上でテキスト指示された物体を追跡する研究などを紹介する。言語モデルやテキストを理解する技術をロボティクスなどの分野にどのように応用していくか、最新の研究動向についても取り上げる。

企画セッション2 [10月31日(火) 10:40 – 12:40]
テンソルネットワーク

オーガナイザー:横田達也(名古屋工業大学)

Chao Li(理化学研究所)

Exploring Optimal Tensor Network Architectures Through Tensor Network Structure Search (TN-SS)

Tensor networks (TN) represent a formidable framework within machine learning. However, the selection of an effective TN model—a process known as Tensor Network Structure Search (TN-SS)—remains a computationally challenging endeavor. In my presentation, I will offer a succinct overview of our approach to this issue. I will concentrate on problem formulation and solution strategies from the standpoint of discrete optimization. Specifically, I will discuss three algorithms and the associated theoretical findings, which have been the subject of my research and were published in ICML conferences in 2020, 2022, and 2023.

ガラムカリ和(理化学研究所)※オンライン講演

非負テンソルの多体近似

テンソルを積の形に分解し,低ランクのテンソルで近似することで,テンソル形式のデータからパターンや特徴を抽出できる.しかし,テンソルの低ランク性に着目した従来の分解は,そのコスト関数の非凸性に由来するアルゴリズムの初期値依存性や,ランクのチューニングが必要といった課題がある.そこで本講演では,テンソルのモード間の相互作用をエネルギー関数を用いて記述し,その相互作用の一部を削減するテンソル多体近似を導入する.情報幾何学による解析によって,多体近似後のテンソルの集合(モデル空間)の平坦性を示し,初期置に関わらず大域最適解が安定に求まることを証明する.またモード間の相互作用の有無を因子グラフで記述することで直感的なモデル設計が可能になる.この因子グラフによる相互作用の記述を既存のテンソルネットワーク表現に変換することで,従来のテンソル分解法と本手法の数理的な関係についても紹介する.

上田宏(大阪大学)

テンソルネットワーク法の量子計算への応用

離散的な格子点上で定義される古典/量子多体模型における分配関数/固有状態を推定する標準的な手法の1つとして、テンソルネットワーク(TN)法がある。近年、その応用が量子計算分野にまで及び、量子優位性を検証する際の古典アルゴリズム代表の1つとして位置づけられている。この背景には、TN法が統計力学の粗視化と、量子情報のエンタングルメントの概念に基づいた形式を取っており、その観点から、量子回路はTNの一種とみなせ、回路から生成される量子状態の評価がTN法を使用して従来の高性能計算機で高速に処理できるためである。他方、現在の量子計算機はノイズを含む量子回路しか実行できないため、所望の量子状態を少数の量子ゲートで近似的に表現する技術の進化が重要であり、TN法の知見はその点でも注目されている。本講演では、最近の量子計算分野におけるTN法の位置付けや役割を示しつつ、我々の取り組んでいる研究内容も紹介する。

企画セッション3 [11月1日(水) 09:30 – 11:30]
最適輸送

オーガナイザー:今泉允聡(東京大学/理化学研究所)

佐藤竜馬(京都大学)

何でも微分する

最適輸送が機械学習コミュニティーで人気を博している要因として、最適輸送には微分可能な変種が存在することが挙げられる。微分可能な最適輸送は様々な機械学習モデルに構成要素として簡単に組み入れることができる点が便利である。本講演では、最適輸送の微分可能な変種とその求め方であるシンクホーンアルゴリズムを紹介する。また、この考え方を応用し、ソーティングなどの操作や他の最適化問題を微分可能にする方法を紹介するとともに、これらの微分可能な操作が機械学習においてどのように役立つかを議論する。

松田孟留(東京大学/理化学研究所)

最適輸送と情報幾何

最適輸送理論では,確率分布間の輸送コストであるWasserstein距離に関して色々な性質が調べられている.一方,情報幾何学では,統計モデルをFisher情報量を計量としたリーマン多様体とみなし,Kullback–Leiblerダイバージェンスをもとに双対接続を導入する.モデルの曲率や射影などの幾何構造と統計的推測の関係についてさまざまな結果が得られている.Wasserstein距離には台集合(確率変数が値をとる空間)の幾何構造が直接的に反映されるのに対して,Kullback–Leiblerダイバージェンスは台集合の変数変換について不変であるためそのような性質はもたない.本講演では,Wasserstein距離から誘導される統計モデルの幾何構造と統計的推測との関係について,最近の結果も交えて紹介する.

伊藤創祐(東京大学)

最適輸送と熱力学的トレードオフ関係

非平衡熱力学の分野においては最適輸送理論における分布間の距離の指標であるWasserstein-2距離を用いて、Langevin方程式で記述される拡散過程のダイナミクスにおける普遍的な制限として、熱力学的トレードオフ関係という関係式が議論されている。これらの関係式について説明を行い、拡散過程においてWasserstein-2距離が経路に関する確率におけるKLダイバージェンスと関係することや、熱力学的トレードオフ関係が経路に関する確率で与えられるFisher情報量におけるクラメルラオ限界に相当することを説明したい。

企画セッション4 [11月1日(水) 14:20 – 16:20]
メカニズムデザイン

オーガナイザー:竹内孝(京都大学)

恐神貴行(日本IBM)

機械学習によるメカニズムデザイン

企業は、他の企業とモノやサービスを売買することによって、より大きな価値を生み出すことを可能にする。そのような企業の取引ネットワークにおいて、各企業が利己的にそれぞれの利潤を最大化しようとすると、全体として非効率になり、また結果的に利潤が最大化されるわけでもない。各企業が利己的に振る舞うことが、取引ネットワーク全体の効率(利潤)を最大化し、また結果的に各企業の利潤を最大化するように、取引ネットワークのルールを決めることはできないだろうか?各参加者が利己的に振舞う結果が望ましい性質を持つようにルール(メカニズム)を定めるのがメカニズムデザインである。本講演では、そのような望ましいメカニズムをデータから学習するアプローチを議論し、取引ネットワークやオークションへの応用を紹介する。

五十嵐歩美(東京大学)

協力ゲーム理論とPAC学習

協力ゲーム理論では, 複数のプレイヤーが協力関係を結ぶとき, どのような資源配分を行えば, 全てのプレイヤーの合意が得られるかを考える. しかしながら, 望ましい解の計算には, あらゆるプレイヤーの組み合わせに対する提携値全てにアクセスできるという強い仮定があり, それらを学習するにはどの程度計算資源が必要かは理論的に深く研究されていなかった. このような問題に対する理論的な枠組みとして, Balcan, Procaccia, Zick (IJCAI 2015)は, PAC学習を協力ゲームに応用する枠組みを提案している. プレイヤーの部分集合を学習領域の要素と考え, 各プレイヤーの組み合わせがある確率分布に従って提携を組むとする. その仮定のもとで, プレイヤーが離反する可能性をできるだけ小さく抑えるような近似解が効率的に学習可能かを考える. 本講演では, 一連の既存研究を紹介し, 提携形成ゲームへの応用も紹介する.

冨田燿志(サイバーエージェント)

マッチング・マーケットデザインの産業応用

人と人、人とモノの適切なマッチのさせ方を設計する「マッチング・マーケットデザイン」は、研修医配属や学校選択制度など実際の制度設計への応用とともに発展してきた分野で、日本でも多くの社会実装が進められている。特に現在では、Web分野の発展とともに機械学習とデータ活用がWebサービスにおいて広く行われるようになり、マッチング・マーケットデザインの知見と組み合わせることでさらなる産業応用の発展が期待されている。本発表では、サイバーエージェントAI Lab経済学社会実装チームが取り組んでいる保育所利用調整システムとWebサービスにおける推薦システムへの二点の応用例を紹介するとともに、これからのマッチング・マーケットデザインの産業応用の方向性について議論したい。