各発表に割り振られている数字が発表番号です。
最終更新時刻:2020/12/02 14:16
※ プレゼン動画の公開期間は終了いたしました。
一般セッションの動画一覧はこちらです。
[動画] 1 : Calibrated Surrogate Losses for Adversarially Robust Classification
Han Bao, Clayton Scott, Masashi Sugiyama (The University of Tokyo/RIKEN AIP, University of Michigan, RIKEN AIP/The University of Tokyo)
Adversarially robust classification seeks a classifier that is insensitive to adversarial perturbations of test patterns. This problem is often formulated via a minimax objective, where the target loss is the worst-case value of the 0-1 loss subject to a bound on the size of perturbation. Recent work has proposed convex surrogates for the adversarial 0-1 loss, in an effort to make optimization more tractable. In this work, we consider the question of which surrogate losses are calibrated with respect to the adversarial 0-1 loss, meaning that minimization of the former implies minimization of the latter. We show that no convex surrogate loss is calibrated with respect to the adversarial 0-1 loss when restricted to the class of linear models. We further introduce a class of nonconvex losses and offer necessary and sufficient conditions for losses in this class to be calibrated.
[動画] 2 : LDAにおける汎化誤差の厳密な漸近形
林 直輝 (株式会社NTTデータ数理システム, 東京工業大学)
潜在ディリクレ配分(latent Dirichlet allocation, LDA)は,テキストマイニングなど様々な分野において,本質的な情報の抽出や次元削減に用いられる統計モデルである.主にベイズ学習によりパラメータが推論されるが,LDAは正則モデルでないためその汎化誤差は不明であった.いくつかの特異モデルにおける汎化誤差の漸近形が研究されているが,ほとんどが上界の導出であり厳密値は未解明な場合が多かった.本研究ではLDAにおける汎化誤差の厳密な漸近形を導出する.
[動画] 3 : ミスラベルに対して頑健な距離学習の提案と衣服画像検索への応用
吉田 駿哉, 阿部 将大 (株式会社D2C, 株式会社D2C)
衣服画像検索では大量の衣服画像とそれに対する豊富なラベルの供給が課題として報告されている。特に衣服画像のラベルは曖昧で、アノテーターの主観によるラベルのばらつきといったミスラベルが混入してしまう可能性がある。本発表ではCo-teachingを距離学習へ組み込んだ学習手法を提案し、従来の衣服画像検索を題材に、ミスラベルを含んだデータセット状況下における検索精度を検証した結果について報告する。
[動画] 4 : 予測符号化を模倣する深層生成学習モデル構築に向けた取り組み
黒田 彗莉, 西本 伸志, 西田 知史, 小林 一郎 (お茶の水女子大学, 情報通信研究機構 脳情報通信融合研究センター, 情報通信研究機構 脳情報通信融合研究センター, お茶の水女子大学)
我々の脳は常に多くの情報を受けとっており、それらを効率的に処理する必要がある。その処理は、脳内の大脳皮質における予測符号化という機構が機能することで実現していると考えられている。本研究では、この仕組みを模倣した深層生成学習モデルをもとに新しいモデルの構築を行い、また双方のモデルに対して、画像刺激を受けている際の脳活動情報との相関関係を考察した。
[動画] 5 : 深層強化学習におけるノンパラメトリックなエピソード記憶を備えたRainbowの評価
久吉 大輝, 山根 智 (金沢大学, 金沢大学)
Rainbowは6種類のDQN拡張アルゴリズムを組み合わせた手法であり、エージェントは高い性能を発揮する。しかしこれらパラメトリックな手法はサンプル効率が悪いことが知られている。一方、ノンパラメトリックなエピソード記憶を用いた手法がサンプル効率を向上させることから近年注目されている。本研究では、両者の利点を組み合わせた学習アルゴリズムを提案し、学習速度と報酬獲得の観点からこの手法を評価する。
[動画] 6 : テンソル分解を用いた教師無し学習による変数選択法を用いたCOVID-19治療薬の探索
田口 善弘, Turki Turki (中央大学, キング・アブドゥルアズィーズ大学)
新型コロナ肺炎治療薬の作成は緊急を要するが、通常の創薬では開発開始から10年程度の時間を要することが多いが、ドラッグリポジショニングを言って、既に薬として認可されている化合物の中から新型コロナ肺炎に有効なものを探すという戦略であれば早期の創薬が見込める。我々はテンソル分解を用いた教師無し学習による変数選択法を用いたインシリコドラッグリポジショニングを試みたのでその結果を報告する。
[動画] 7 : Learning from Aggregate Observations
Yivan Zhang, Nontawat Charoenphakdee, Zhenguo Wu, Masashi Sugiyama (The University of Tokyo, The University of Tokyo, RIKEN AIP, The University of Tokyo, RIKEN AIP, The University of Tokyo)
We study the problem of learning from aggregate observations where supervision signals are given to sets of instances instead of individual instances, while the goal is still to predict labels of unseen individuals. A well-known example is multiple instance learning (MIL). We extend MIL beyond binary classification to other problems such as multiclass classification and regression. We present a general probabilistic framework that accommodates a variety of aggregate observations, e.g., pairwise similarity/triplet comparison for classification and mean/difference/rank observation for regression. Simple maximum likelihood solutions can be applied to various differentiable models such as deep neural networks and gradient boosting machines. Moreover, we develop the concept of consistency up to an equivalence relation to characterize our estimator and show that it has nice convergence properties under mild assumptions. Experiments on three problem settings — classification via triplet comparison and regression via mean/rank observation indicate the effectiveness of the proposed method.
[動画] 8 : Reproducing kernel Hilbert C*-moduleによる多変量データの解析
橋本 悠香, 石川 勲, 池田 正弘, 紅村 冬大, 勝良 健史, 河原 吉伸 (NTTネットワーク基盤技術研究所 / 慶應大学, 愛媛大学 / 理研AIP, 理研AIP / 慶應大学, 慶應大学 / 理研AIP, 慶應大学 / 理研AIP, 九州大学/ 理研AIP)
RKHM (Reproducing kernel Hilbert C*-module)はRKHS (Reproducing kernel Hilbert space)の一般化であり,C*環に値を持つ内積の構造を持つ.データ解析においてはRKHSの別な一般化としてvv-RKHS (vector valued-RKHS)の応用が提案されてきた.一方で,RKHMはvv-RKHSに比べて表現能力が高く,行列環などのC*環に値を持つ内積を利用することで複数要素を持つデータの要素間の関係性を記述し抽出することができるという利点を持つ.本発表ではRKHMをデータ解析へ応用するための基本的な性質を示し,RKHMを用いた具体的な解析を紹介する.
[動画] 9 : 可変重み付き損失関数を用いた Long-tailed Classificationの精度向上
加藤 聡太, 堀田 一弘 (名城大学)
本研究では, Long-tailed Classificationに対する新たな重み付き損失関数を提案する. クラス数が不均衡なデータセットを学習させた時, サンプル数が少ないクラスの出力確率は低い状態で学習が進んでいく. そこで提案手法では, 確率値を考慮ながら, そのクラスに適切な重み付け学習を行う. これにより, サンプル数が少ないクラスに対してより大きな損失を与えることが可能となり, 精度向上と効率的な学習を可能にした.
[動画] 10 : カップリングに基づく可逆神経回路網は微分同相写像の万能近似器である
手嶋 毅志, 石川 勲, 東條 広一, 大野 健太, 池田 正弘, 杉山 将 (東京大学/理研AIP, 愛媛大学/理研AIP, 理研AIP, 東京大学, 理研AIP, 理研AIP/東京大学)
カップリング流に基づく可逆神経回路網(CF-INN)は画像生成や表現学習など様々な機械学習応用が期待される一方、その望ましい特性は関数形の制限と引き換えに実現されるため、CF-INNは可逆写像の万能近似器かという疑問が生じる。そこで本研究ではCF-INNが万能近似器となる為の十分条件を微分幾何学の結果を応用して示す。また系としてアフィン正規化流は万能分布近似器かという未解決問題を肯定的に解決する。
[動画] 11 : U-Net++とSE-Netを統合した画像セグメンテーションのための転移学習モデル
鈴木 悠太, 山根 智 (金沢大学)
U-Net++を拡張した転移学習モデルを提案した. 画像分類タスクでは局所特徴を学習すれば良いがセグメンテーションタスクはそれに加えて位置情報も学習する必要がある. 故にタスク間の学習すべき特徴に差異が生じる. そこでSEブロックを組み込むことで局所特徴と位置情報の両方を効率よく学習するSE-U-Net++と畳み込み層のパラメータを比較することでタスクの差異を埋める転移学習アルゴリズムを提案した.
[動画] 12 : Legislators’ Sentiment Analysis Supervised by Legislators
松尾 晃孝, 福元 健太郎 (エセックス大学, 学習院大学)
The sentiment expressed in legislator’s speech is informative, in particular in a legislature with partisan discipline. But extracting legislators’ sentiment requires polarity dictionaries or labeled data, which are labor-intensive to construct and could be subjective. To address this challenge, we propose a research design to exploit closing debates on a bill, where legislators themselves label their speech by pro or con. We apply our method to the corpora of all speeches in the Japanese national legislature, 1955–2014. After establishing the face validity of our sentiment scores, we show that, to a moderate degree, government backbenchers and opposition members get more polarized as the next election is approaching, although both sides come together towards the end of a legislative session.
[動画] 13 : A Large-scale Open Dataset for Bandit Algorithms
齋藤 優太, 粟飯原 俊介, 松谷 恵, 成田 悠輔 (東京工業大学, ZOZOテクノロジーズ, ZOZOテクノロジーズ, イェール大学)
We build and publicize the Open Bandit Dataset to facilitate scalable and reproducible research on bandit algorithms. It is especially suitable for off-policy evaluation (OPE), which attempts to predict the performance of hypothetical policies using data generated by a different, past policy. We construct the dataset based on experiments and implementations on a large-scale fashion e-commerce platform, ZOZOTOWN. The data contain the ground-truth about the performance of several bandit policies and enable the fair comparisons of different OPE estimators. We also build a Python package called Open Bandit Pipeline. Our open data and pipeline will allow researchers and practitioners to easily evaluate and compare their bandit algorithms and OPE estimators with others in a large, real-world setting. Using the data and pipeline, we provide extensive benchmark experiments of existing OPE estimators. The findings in the benchmark experiments suggest several critical directions for future OPE research. Our pipeline and example data are available at https://github.com/st-tech/zr-obp
[動画] 14 : 群畳み込みニューラルネットワークによる同変的写像の普遍近似定理
熊谷 亘, 三内 顕義 (東京大学, 理化学研究所)
多くのなデータ分布には群対称性が内在している。対称性を保存するデータ処理は同変写像として記述 されるが、同変的な性質を取り入れることは性能を高めるためにしばしば有効である。畳み込みニューラル ネットワーク(CNN)は同変性を持つモデルとして知られており、ある特定の群に対して同変写像を近似 できることが示されている。しかし CNN に対する普遍近似定理は、それぞれの群や設定に応じて 個別の手法で導出されている。本発表では CNN による同変写像の普遍近似定理を統一的に与える.これにより様々な新規の結果を得ることができるが,特にこれまでの研究では扱われていなかった無限次元空間の間の非線形同変写像を扱うことができるのが特徴である.
[動画] 15 : 背景学習によるVAEを用いた大雑把な対象領域抽出
中村 凌, 植田 祥明, 藤木 淳, 田中 勝 (福岡大学, 福岡大学, 福岡大学, 福岡大学)
識別対象と背景の画像からランダムに切り出した複数の小領域画像(パッチ)の中で特に背景パッチについて大量にVAE学習させることで,識別対象パッチを異常検知として識別し対象領域を大雑把に抽出する方法を提案する.これまでにVAEを用いた前景と背景を抽出する研究は多く行われているが,本手法は従来手法と異り学習に関わるパラメータ数や訓練画像の数を大きく削減することで,大雑把な対象領域抽出を行う.大雑把な対象領域抽出は識別学習の前処理として使用することを目的としており,大雑把に対象領域を抽出することで識別性能が向上することは実験により確認している.
[動画] 16 : A Study of Adam-Induced Weight Sparsity in ResNet Architecture
Seng Pan That Pann Phyu, Yaguchi Atsushi, Nitta Shuhei, Tanizawa Akiyuki (Toshiba Corporation)
[Introduction]Model compression is important for reducing the size of DNNs in order to be able to deploy the compressed model on the resource-constrained devices. The recent work by Yaguchi at el. [1] has reported that deep learning automatically induces group sparsity of weights under three conditions: (1) Adam optimizer, (2) ReLU activations, and (3) L2 regularized objective function. [Problems and Motivations]In this paper, we propose a new method which is extended from [1] and evaluate the performance of model compression on ResNet architectures that have not been studied in [1]. In ResNet, the output of each residual block contains an addition of feature map from the input. Thus, it is only possible to remove the channel with the same indices between two layers.[Contributions]We experimentally and mathematically show that the new compaction method is effective for pruning insignificant channels in the ResNet architecture. [Methods]We compare the effectiveness of our method with the method proposed by Liu at el. [2] with the ResNet18 architecture for CIFAR100 dataset. The performance of model compression criterion is measured by the trade-off of model accuracy verses the compacted model size and the MAC (multiplication count). On the other hand, we also evaluate the effectiveness of model compression by using the ratio of matching the indexes of input and output channels. [Results and conclusions]The model compression performance obtains the accuracy of 0.7131 from 11% of compacted model size with 124k MACs from our method and 0.7149 from 25% of compacted model size with 169k MACs for the method [2]. The model compression effectiveness is 99.19% for our method and 69.72% for the method [2]. In the mathematical analysis, the calculations show that the correlation between the gradient magnitude of the input and output channels. Therefore, we consider that using our method makes the models easier to be synchronously pruned the same channel indices in ResNet models.[References][1] Yaguchi at el., “Adam Induces Implicit Weight Sparsity in Rectifier Neural Networks”, in Proceedings of ICMLA, 2018.[2] Liu at el., “Learning Efficient Convolutional Networks through Network Slimming”, in Proceedings of ICCV, 2017.
[動画] 17 : 積分幾何学に基づくニューラルネットの新しい再構成公式
園田 翔, 石川 勲, 池田 正弘 (理研AIP, 愛媛大・理研AIP, 理研AIP)
従来の積分表現ニューラルネットは双対Radon変換と双対ウェーブレット変換に分解できる。この分解から出発してニューラルネットによる関数近似の仕組みを再考することで,k-plane変換に基づく新しいリッジレット変換と,対応する再構成公式を導出した。再構成公式によれば,ニューラルネットのパラメータ分布はStiefel多様体上の関数になる。
[動画] 18 : スパース正則化に基づいたCUR行列分解の高速化
井田 安俊, 金井 関利, 藤原 靖宏, 岩田 具治, 竹内 孝, 鹿島 久嗣 (NTT/京都大学, NTT, NTT, NTT, 京都大学/理研AIP, 京都大学/理研AIP)
決定的CUR行列分解はスパース正則化付き最適化を用いた低ランク近似手法であり, 主に行列から重要な行や列を選択するために用いられるデータ分析手法である.しかし, 最適化の計算コストが大きいため大規模行列への適用が難しい. そこで本研究では最適条件の近似判定を利用した高速な最適化アルゴリズムを提案する. 実験では提案手法が精度を劣化させずに3~10倍高速に動作することを示す.
[動画] 19 : スパース独立成分分析による構造的因果モデルの推定
原田 和治, 藤澤 洋徳 (総合研究大学院大学, 統計数理研究所,総合研究大学院大学,理研AIPセンター)
線形非ガウス非巡回モデル(LiNGAM)は統計的因果探索の代表的なモデルである.これまでにいくつかの推定法が提案されてきたが,多くは因果順序とパラメータを別々に推定する2段階法であり,特に因果構造が疎の場合に非効率である.本発表ではスパース独立成分分析による1段階法を提案し,非効率性を改善する.同系統の従来法は一致性に問題があり,提案手法はこの点も改善した.数値実験では従来法を大きく超える性能を達成した.
[動画] 20 : 順序回帰への新たなアプローチと分類と回帰のマルチタスク学習に基づく順序回帰モデル
山崎 遼也, 田中 利幸 (京都大学, 京都大学)
順序回帰(OR)問題は,自然な全順序関係を備えたラベル集合からラベル付けされた目的変数をもつデータの分類問題である.既存OR手法は順序関係を予測器の設計に活用するアプローチに従うが,その多くは一致性を持たないなどの問題点を抱えている.本研究では,一致性を持った予測器の汎化性能を向上させることを目標として,分類と回帰のマルチタスク学習(MTL)に基づくORモデルを提案する.提案モデルは,順序関係を予測器の学習に活用する新たなアプローチに従っており,順序関係を考慮しない標準的な分類タスクに加えて,ラベルの自然な順序関係をより良く説明しうる内部表現の学習を促進するために,ラベルの値そのものをターゲットとした回帰タスクを同時に学習する.ニューラルネットワークを使用する基本的なMTL手法でこれを実装し,数値実験を通じてこの提案手法が基礎とする標準的な分類器を改善し,既存のOR手法より優れた予測性能を与えたことを確認した.
[動画] 21 : CNNの画像分類タスクにおけるRotational-Updateの検証
関谷 侑希, 堀 哲也, 竹中 要一 (関西大学, 関西大学, 関西大学)
CNNを用いた画像分類モデルの求解性能向上を目的として、Rotational-Updateを提案する。提案手法ではモデル内にある全結合層のニューロンをグループ化し、グループごとに重み更新をする。また類似手法であるDropoutと異なり、勾配計算に全ニューロンを用いる。本研究では提案手法単体、および各種手法との組合せモデルを性能評価し、提案手法の有効性を明らかにする。
[発表キャンセル] 22 : 深層学習と組み合わせ最適化のジョイント学習による行動ローカリゼーション
大北 剛 (九州工業大学)
[動画] 23 : 辞書学習を利用した画像解析
朝岡 日向子, 工藤 和恵, 白井 達彦, 田中 宗, 戸川 望 (お茶の水女子大学大学院, お茶の水女子大学大学院, 早稲田大学基幹理工学部, 慶應義塾大学理工学部/早稲田大学グリーン・コンピューティング・システム研究機構, 早稲田大学基幹理工学部)
本研究では、画像の分類を行う機械学習手法のひとつとして、辞書学習を利用するものを提案する。画像解析における辞書学習では、画像を行列に変換し、画像が持つ特徴を表す辞書となる行列と、辞書を使って画像をスパースに表現する行列の2つに分解する。次元を削減した行列表現を用いることによって、従来の画像解析技術よりもデータ量を大幅に削減した解析を実現する。
[動画] 24 : アニーリングマシンを用いた乗り合いのマッチング最適化
佐藤 由佳, 工藤 和恵, 白井 達彦, 田中 宗, 戸川 望 (お茶の水女子大学大学院, お茶の水女子大学大学院, 早稲田大学基幹理工学部, 慶應義塾大学理工学部/早稲田大学グリーン・コンピューティング・システム研究機構, 早稲田大学基幹理工学部)
出発地を同じくし、異なる目的地に向かうタクシーの乗り合いについて考える。乗り合いの数理モデルではクラスタリングを応用し、各タクシーに乗りあうユーザーの組合せを求めた。本発表では、乗り合いの前処理として検討したアニーリングマシンを用いたユーザー集団の分割手法について示し、その結果を議論する。
[動画] 25 : アニーリングに基づくアルゴリズムによる画像の多値分類
坂倉 佑季, 工藤 和恵, 白井 達彦, 田中 宗, 戸川 望 (お茶の水女子大学大学院, お茶の水女子大学大学院, 早稲田大学基幹理工学部, 慶應義塾大学理工学部/早稲田大学グリーン・コンピューティング・システム研究機構, 早稲田大学基幹理工学部)
データが膨大である現代において、複数の選択肢の中から最適なものを選ぶ「組合せ最適化問題」を高速に解く需要が高まってきている。しかし、従来のコンピュータでこの問題を解くのには非常に時間がかかる。この最適化問題を高速かつ高精度に解くと期待されているのがアニーリングマシンである。本研究では、アニーリングベースの量子機械学習を用いて画像の分類を行い、量子機械学習の優位性について検証する。
[動画] 26 : Do we need zero training loss after achieving zero training error?
石田 隆, 山根 一航, 坂井 智哉, Gang Niu, 杉山 将 (東京大学/理研AIP, Université Paris Dauphine-PSL/理研AIP, NEC/理研AIP, 理研AIP, 理研AIP/東京大学)
Overparameterized deep networks have the capacity to memorize training data with zero training error. Even after memorization, the training loss continues to approach zero, making the model overconfident and the test performance degraded. Since existing regularizers do not directly aim to avoid zero training loss, it is hard to tune their hyperparameters in order to maintain a fixed/preset level of training loss. We propose a direct solution called flooding that intentionally prevents further reduction of the training loss when it reaches a reasonably small value, which we call the flood level. Our approach makes the loss float around the flood level by doing mini-batched gradient descent as usual but gradient ascent if the training loss is below the flood level. This can be implemented with one line of code and is compatible with any stochastic optimizer and other regularizers. With flooding, the model will continue to “random walk” with the same non-zero training loss, and we expect it to drift into an area with a flat loss landscape that leads to better generalization. We experimentally show that flooding improves performance and, as a byproduct, induces a double descent curve of the test loss.
[動画] 27 : Variational Imitation Learning with Diverse-quality Demonstrations
Voot Tangkaratt, Bo Han, Mohammad Emtiyaz Khan, Masashi Sugiyama (RIKEN Center for Advanced Intelligence Project, Japan, Department of Computer Science, Hong Kong Baptist University, Hong Kong, Department of Complexity Science and Engineering, The University of Tokyo, Japan)
Learning from demonstrations can be challenging when the quality of demonstrations is diverse, and even more so when the quality is unknown and there is no additional information to estimate the quality. We propose a new method for imitation learning in such scenarios. We show that simple quality- stimation approaches might fail due to compounding error, and fix this issue by jointly estimating both the quality and reward using a variational approach. Our method is easy to implement within reinforcement-learning frameworks and also achieves state-of-the-art performance on continuous-control benchmarks. Our work enables scalable and data-efficient imitation learning under more realistic settings than before.
[動画] 28 : ラベルなし事例集合からの密度比を用いたクラス事前確率推定
吉田 剛, 新家 英太郎, 鷲尾 隆 (大阪大学 産業科学研究所)
負事例が未知の割合で混入した正事例集合と,正事例と負事例が未知の割合で混ざったラベルなし事例集合とから,それぞれの事例集合の正負事例の混合割合を確率密度比を用いて推定する新しい手法を提案する.途中に分類器学習などを介する既存手法と異なり,本手法は混合割合を直接推定する点に特色がある.提案手法は既存手法に比べ,事例数の多寡やインバランスに対しロバストに,高速に,かつ高精度に,混合割合の推定ができた.
[動画] 29 : Rethinking Importance Weighting for Deep Learning under Distribution Shift
Tongtong Fang, Nan Lu, Gang Niu, Masashi Sugiyama (The University of Tokyo, The University of Tokyo/RIKEN, RIKEN, RIKEN/The University of Tokyo)
Under distribution shift (DS) where the training data distribution differs from the test one, a powerful technique is importance weighting (IW) which handles DS in two separate steps: weight estimation (WE) estimates the test-over-training density ratio and weighted classification (WC) trains the classifier from weighted training data. However, IW cannot work well on complex data, since WE is incompatible with deep learning. In this paper, we rethink IW and theoretically show it suffers from a circular dependency: we need not only WE for WC, but also WC for WE where a trained deep classifier is used as the feature extractor (FE). To cut off the dependency, we try to pretrain FE from unweighted training data, which leads to biased FE. To overcome the bias, we propose an end-to-end solution dynamic IW that iterates between WE and WC and combines them in a seamless manner, and hence our WE can also enjoy deep networks and stochastic optimizers indirectly. Experiments with two representative DSs on Fashion-MNIST and CIFAR-10/100 demonstrate that dynamic IW compares favorably with state-of-the-art methods.
[動画] 30 : Noise2Noise深層学習を用いた教師無しの計測ノイズ低減
鷹合 孝之, 筒井 真楠, 鷲尾 隆 (大阪大学産業科学研究所, 大阪大学産業科学研究所, 大阪大学産業科学研究所)
近年の先端計測デバイスから出力される測定情報は,複雑な過程から生み出される多くのノイズを含むため,そのままでは正確な計測結果を得ることが困難であり,計測情報から対象現象の高精度推定を行う必要性が高まっている.我々は一分子計測やその他の先端計測問題を取り上げ,その効果的なノイズ低減を行う問題に取り組んでいる.本研究では,Noise2Noise深層学習を時系列データのノイズ低減に適用し,その有効性を検証した.
[動画] 31 : Neural–ODE を用いた時系列情報解析
梶 大介 (株式会社 デンソー)
近年注目を集めているニューラルネットワークによる学習、Neural-ODEを用いた時系列データのデータ解析を提案する。常微分方程式ではその関数形に関に対する解の挙動に関する研究が多く存在するため、データのもつ経験的な情報と学習パラメータの示すデータ挙動の紐づけが容易である。本研究ではNeural-ODEにおいて線形常微分方程式部分を観察することでデータ特性を理解できることを示す。
[動画] 32 : A One-step Approach to Covariate Shift Adaptation
Tianyi Zhang, Ikko Yamane, Nan Lu, Masashi Sugiyama (The University of Tokyo, Université Paris Dauphine-PSL/RIKEN, The University of Tokyo/RIKEN, RIKEN/The University of Tokyo)
A default assumption in many machine learning scenarios is that the training and test samples are drawn from the same probability distribution. However, such an assumption is often violated in the real world due to non-stationarity of the environment or bias in sample selection. In this work, we consider a prevalent setting called covariate shift, where the input distribution differs between the training and test stages while the conditional distribution of the output given the input remains unchanged. Most of the existing methods for covariate shift adaptation are two-step approaches, which first calculate the importance weights and then conduct importance-weighted empirical risk minimization. In this paper, we propose a novel one-step approach that jointly learns the predictive model and the associated weights in one optimization by minimizing an upper bound of the test risk. We theoretically analyze the proposed method and provide a generalization error bound. We also empirically demonstrate the effectiveness of the proposed method.
[動画] 33 : SIGUA: Forgetting May Make Learning with Noisy Labels More Robust
Bo Han, Gang Niu, Xingrui Yu, Quanming Yao, Miao Xu, Ivor W. Tsang, Masashi Sugiyama (Hong Kong Baptist University, RIKEN, University of Technology Sydney, 4Paradigm Inc. (Hong Kong), University of Queensland, The University of Tokyo)
Given data with noisy labels, over-parameterized deep networks can gradually memorize the data, and fit everything in the end. Although equipped with corrections for noisy labels, many learning methods in this area still suffer overfitting due to undesired memorization. In this paper, to relieve this issue, we propose stochastic integrated gradient underweighted ascent (SIGUA): in a minibatch, we adopt gradient descent on good data as usual, and learning-rate-reduced gradient ascent on bad data; the proposal is a versatile approach where data goodness or badness is w.r.t. desired or undesired memorization given a base learning method. Technically, SIGUA pulls optimization back for generalization when their goals conflict with each other; philosophically, SIGUA shows forgetting undesired memorization can reinforce desired memorization Experiments demonstrate that SIGUA successfully robustifies two typical base learning methods, so that their performance is often significantly improved.
[動画] 34 : ベイズ予測分布に基づく適応的グループテスト
坂田 綾香 (統計数理研究所)
グループテストとは、患者の検体を混ぜ合わせたプールを作り、プールに対して行われた検査の結果から患者の状態を特定する方法である。患者数が十分小さいとき、グループテストを行うことで検査数を減らすことができる。グループテストは非適応的/適応的グループテストに分けられる。前者ではプール方法があらかじめ決まっているが、後者ではそれまで行われた検査結果に基づいて次のプールが決まる。後者について、検査ノイズに影響されにくい方法を提案する。
[動画] 35 : システムの物理的性質を利用した強化学習の高速化
岩本 有生, 福永 修一 (東京都立産業技術高等専門学校, 東京都立産業技術高等専門学校)
強化学習をロボットのような実システムに適用する場合,なるべく学習回数を抑えることが望ましい.対象のシステムをポートハミルトン系と呼ばれるメカトロニクス系に限定することにより,対象の物理的性質を利用した高速な学習アルゴリズムが提案された.本研究ではこの方法に,自然勾配法を導入することによりさらに高速なアルゴリズムを提案する.そして倒立振子を用いたシミュレーションにより提案手法の有効性を示す.
[動画] 36 : スパース転移学習
高田 正彬, 藤澤 洋徳 (株式会社東芝, 統計数理研究所)
L1正則化を用いた転移学習により,データの定常性・非定常性をバランスさせながらモデルを更新する方法を提案する.通常のL1正則化に加えて、過去の推定値との差分のL1正則化を組み合わせることで、推定量自体と「推定量の変化」を同時にスパースにする。理論解析では,定常環境下では誤差上限が改善し,非定常環境下でも推定に一致性が保たれることを示した.数値実験でも有効性を確認した.
[動画] 37 : 確率的離散一次法による一般化線形モデルの特徴選択
工藤 晃太, 高野 祐一 (筑波大学大学院システム情報工学研究群, 筑波大学システム情報系)
予測モデルを作成する際に、有効な特徴量を選択する問題は特徴選択と呼ばれる。線形回帰モデルを対象とした特徴選択の高速アルゴリズムとして離散一次法が提案されている。本研究では、離散一次法の対象を一般化線形モデルへと拡張する。また、離散一次法の探索点列に対して確率変動を加えることで、より広範囲の解を探索する確率的離散一次法を提案する。既存手法との比較実験を通して、提案手法の有効性を検証する。
[動画] 38 : 時間付加グラフのベクトル表現を用いたタクシー軌跡データの解析
河上 佳太, 西村 直樹, 白鳥 友風, 工藤 晃太, 松岡 雄大, 最首 大輝, 渡邊 彰久, 高野 祐一 (筑波大学大学院システム情報工学研究群, 筑波大学大学院システム情報工学研究科, 筑波大学大学院システム情報工学研究科, 筑波大学大学院システム情報工学研究群, 筑波大学大学院システム情報工学研究群, 筑波大学大学院システム情報工学研究群, 東京工業大学工学院経営工学系, 筑波大学システム情報系)
タクシー事業では非効率な営業が課題である. 営業効率を示す指標のひとつである実車率を向上させるために,タクシー軌跡データを解析する.軌跡データを時間帯情報を含むグラフに変換しベクトル化することで日頃の行動パターンを表す定量的な情報を得る.これを用いて実車率の回帰分析を行うと,時間帯情報を付与しない場合に比べ精度が向上し,偏回帰係数から実車率向上のための示唆を得ることができた.
[動画] 39 : レベニューマネジメントにおける暗黙知を考慮した最適化モデルの自動構成
西村 直樹, 池田 春之介, 木村 隆介, 梅谷 俊治 (株式会社リクルート, 株式会社リクルート, 株式会社リクルート, 大阪大学)
レベニューマネジメントにおける価格操作を数理最適化により支援する際に,熟練者の暗黙的な価格操作の制約条件を満たす操作候補を提示することが求められる.本発表では,暗黙的な価格操作の制約条件の解釈可能性と推定精度の向上のため,数値属性相関ルールに基づき算出した制約条件を価格操作の特性を考慮したモデルにより補正する方法を提案する.
[動画] 40 : 混合ガウス分布モデルよる実測データ分布近似と、過学習抑制のためのアルゴリズム比較評価
村崎 諒, 大屋 由香里, 橋本 洋一, 堀 雅和 (株式会社インテック テクノロジー&マーケティング本部 先端技術研究所, 株式会社インテック テクノロジー&マーケティング本部 先端技術研究所, 株式会社インテック テクノロジー&マーケティング本部 先端技術研究所, 株式会社インテック テクノロジー&マーケティング本部 先端技術研究所)
混合ガウス分布モデルは、EMアルゴリズムもしくは変分ベイズ法での実装例が多い。理論的には変分ベイズ法の方が大域最適解を得やすい事で知られている。そこで我々は実測データ分布の近似を各手法で行った場合の違いを評価した。その結果、EMアルゴリズムで発生する過学習の発生が、変分ベイズ法では多くの場合に抑制されており、かつ、より実測データ分布に沿った近似結果を得やすいことを確認した。
[動画] 41 : 神経集団推定法の連続値信号への一般化
木村 俊, 竹田 晃人, 岩崎 唯史, 太田 桂輔 (茨城大, 茨城大, 茨城大, 東大)
同期的に活動する神経細胞集団を推定する問題は,生体内の神経ネットワークの構造解析上重要である.近年大規模データに対する方法として,マルコフ連鎖モンテカルロ法に基づく統計的手法が開発されたが,この手法はスパイクタイミングデータ等の2値信号に対するものであり,蛍光強度データ等の連続値信号に対応できない.そこで本発表では,神経集団推定法の適用範囲を2値信号から連続値信号へ一般化した手法について発表する.
[動画] 42 : モデル縮減を用いたAugmented Neural ODEの圧縮とその応用
大古 一聡, 郡山 拓也, (Equal contribution) (東京大学工学部計数工学科, 東京大学工学部計数工学科)
Neural ODEの応用として、次元拡張によって安定したODEを学習するANODEが注目を集めている。必要な拡張次元数は問題に依存するため予め十分に次元を拡張するのが一般的だが、次元の増加に伴い計算量が増加する欠点がある。本発表では、数値解析におけるモデル縮減の観点から学習済みANODEの次元縮減手法を提案し、効率的な推論に貢献する。また、既存のDNNの圧縮手法との両立について議論する。
[動画] 43 : 多次元系列データにおける変化点検出とSelective Inference
杉山 諒太, 戸田 博己, 竹内 一郎 (名古屋工業大学, 名古屋工業大学, 名古屋工業大学 情報工学専攻・情報科学フロンティア研究院, 理化学研究所 革新知能統合研究センター )
多次元系列データにおいて平均構造に注目して変化を検出することは重要な課題である.このとき,全ての系列で同様の変化が起きることは稀であるため,変化時点の推定に加えて変化系列の推定も行う必要がある.さらに,検出した変化点に対して統計的推論をするためにはアルゴリズムによる選択を考慮する必要がある.本研究ではscan統計量を拡張した多次元変化点検出手法および,Selective Inference の枠組みを用いた適切な統計的推論手法を提案する.
[動画] 44 : ベクトル自己回帰モデルに内在する不均一な遅れ疎構造の自動抽出法
小山 和輝, 切通 恵介, 大川内 智海, 泉谷 知範 (NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社)
一般にVARモデルのモデル選択では全ての系列に同一の時間遅れを選択するが、現象には不均一な遅れ構造が内在していると考える方が自然である。提案手法は、潜在構造正則化学習と統計モデルを用いてVARモデル解析を拡張し、尤度比較を行うことで個別の系列組ごとの重要/非重要なグループ構造を自動抽出する。これにより時間遅れを個別にモデル選択できるだけでなく、従来手法よりも精度と解釈性の高い回帰モデルが得られる。
[動画] 45 : 接触時間を考慮したエージェントベース感染モデル
本間 克己 (株式会社富士通研究所)
本講演では、新たな感染者との接触時間を考慮したエージェントベースの感染確率モデル提案する。提案モデルは、SIRモデルのパラメータやエージェントベースシミュレーターの履歴情報等から容易に同定可能な点に特徴がある。
[動画] 46 : Lazy regimeとactive regimeの遷移における最適化アルゴリズムの影響
加納 龍一, 杉山 麿人 (NII/総研大, NII/総研大)
ニューラルネットワークのパラメータ変化が学習を通して微小な場合(lazy)とそうでない場合(active)とで、学習後のモデルの性質が変わることが注目されている。本研究では、出力スケールを変化させることでレジームを切り替える既存実験手法を適応学習率を用いた最適化と併用した際に発生する問題点を指摘し、最適化手法を修正した。修正後の手法を用いた数値実験における学習後のモデルの性質変化についても議論する。
[動画] 47 : 配送ルート最適化問題におけるクラスタリング
松本 奈紗, 大石 美賀, 工藤 和恵 (お茶の水女子大学, お茶の水女子大学, お茶の水女子大学)
本研究では, 配送ルート最適化問題におけるクラスタリングに着目し,主に組合せ最適化問題に特化したマシンであるアニーリングマシンを用いることで,クラスタリングアルゴリズムの精度の向上を図った.本講演では, 配達先間の移動コストとクラスタ内の頂点数を考慮し, 配達先を完全グラフとしてクラスタリングした結果, およびコミュニティ検出を用いて疎なグラフをクラスタリングした結果について議論する.
[動画] 48 : 限られた観測に基づく密グラフ抽出に対するバンディットアルゴリズム
黒木 祐子, 宮内 敦史, 本多 淳也, 杉山 将 (東京大学/理研AIP, 東京大学, 東京大学/理研AIP, 理研AIP/東京大学)
実ネットワーク上の密な部分構造の抽出は, グラフマイニングにおける重要な操作の一つである.本研究では,(重みが未知の)枝集合からの限られた観測に基づく密グラフ抽出を考え,バンディット問題としての定式化と二つのアルゴリズムを提案する.最適解を得るのに必要なサンプル数およびアルゴリズムの失敗確率の上界についての理論保証を与え,実ネットワークを用いた計算機実験により提案手法の妥当性を示す.
[動画] 49 : Data Cleansing for Reinforcement Learning with Least Squares Temporal Difference
Pan Danqing, 原 聡 (大阪大学, 大阪大学)
We propose a data cleansing method for reinforcement learning with least squares temporal difference. In this study, we formalize the data cleansing problem as an identification of a harmful episode that lead the trained agents to failure. Once such a harmful episode is identified, we can train a new agent by eliminating that harmful episode so that the new agent performs better.A naive approach for this problems consists of two steps: for each episode, (1) update the agent’s policy by eliminating the episode; and (2) start over the further training by sampling episodes based on the new policy and observe whether the new agent succeeds in the end. However, in real-world tasks, starting over the training can be prohibitive due to a high cost of episode sampling. We propose a method to estimate harmful episodes without starting over the training.
[動画] 50 : グラフマイニングを用いた分子構造生成
山田 正嗣, 杉山 麿人 (AGC株式会社, 総合研究大学院大学, 国立情報学研究所)
創薬や材料設計分野において、所望の特性を有する分子構造を提案するための手法が求められている。本研究では、グラフマイニング手法gSpanを用いることで分子の頻出部分構造を抽出し、これらを組み合わせることで分子を拡大させていく手法を提案する。MCTSによる探索と組み合わせることで、所望の特性を有する分子構造が効果的に得られることを示す。
[動画] 51 : 統計多様体における行列ランク削減,行列バランシング,平均場近似
ガラムカリ 和, 杉山 麿人 (国立情報学研究所, 国立情報学研究所)
行列ランク削減,行列バランシング,平均場近似という3つのタスクへの統一的視点を情報幾何学の観点から導入する.さらに,非負行列を半順序集合上の対数線形モデルとして捉えることで,行和列和を保持して行列ランクを削減する新手法を提案する.提案手法では,低ランク近似を部分多様体へのe射影として実現する.また,1ランク多様体とバランシング多様体が1点で交わるという幾何的描像も指摘する.
[動画] 52 : マルチスケールグラフニューラルネットの勾配ブースティング法による解析
大野 健太, 鈴木 大慈 (東京大学, PFN, 東京大学, 理研AIP)
多くのグラフニューラルネットワーク(GNN)モデルは,過平滑と呼ばれる問題により,多層にすると精度劣化することが知られている.マルチスケールGNNは過平滑問題を緩和するモデルとして有望視されているが,その理論解析研究は少ない.本研究では,ブースティングの理論を用いてマルチスケールGNNを含むトランスダクティブ学習モデルについて最適化性能と汎化性能を解析した.
[動画] 53 : ACGANを用いた分布外検知・ラベルノイズ検出
内田 美尋, 梅田 崇之, 安藤 慎吾, 島村 潤 (NTTメディアインテリジェンス研究所)
本研究では、深層学習分類器の誤認識の原因であるラベルノイズを含むデータと訓練データの分布外データを検出する。ラベルノイズは訓練データの分布内のみで定義されるため、同一のデータに対して2つの原因は共起し得ない。しかし、従来法ではこれらを独立に評価するため、推論データが分布外でありかつラベルノイズも含むと誤判定される場合がある。そこでACGANを用いて2つの原因を同時に評価する手法を提案する。
[動画] 54 : 安定不変集合をもつ力学系の学習
武石 直也, 河原 吉伸 (西スイス応用科学大学/理研AIP, 九州大学/理研AIP)
データから力学系を学習するとき、事前知識に応じて安定不変集合の存在を保証したいことがある。例えば、対象が自励振動を示す場合には安定なリミットサイクルをもったモデルを学習したい。しかし、既存の方法では不変集合の一種である(有限個の)平衡点しか扱えない。そこで本稿では、リミットサイクルなどを含む一般の安定不変集合の存在を保証する力学系モデルを提案する。このモデルはニューラルネットなどで実装できる。
[動画] 55 : 複数人のモデリングのための部分観測と力学的制約を伴う分散型方策学習
藤井 慶輔, 武石 直也, 河原 吉伸, 武田 一哉 (名古屋大学/理研AIP, 西スイス応用科学大学/理研AIP, 九州大学/理研AIP, 名古屋大学)
実世界の生物集団行動のルールを抽出する際には、モデルの生物学的妥当性と解釈可能性を考慮する必要がある。本研究では従来のデータ駆動モデルの多くが無視しがちな、部分観測と力学的制約を組込んだ分散型の系列生成モデルを提案する。本問題を分散型模倣学習問題として定式化し、力学的罰則を加えた階層型変分RNNに基づく分散型部分観測方策モデルとして実装して、バスケットボールとサッカーのデータを用いて有効性を示す。
[動画] 56 : 変動指数Besov 空間の回帰問題に対する深層学習の推定誤差解析
辻 和真, 鈴木 大慈 (東京大学大学院情報理工学系研究科 , 東京大学大学院情報理工学系研究科, 理研AIP)
本研究では深層学習の適応性に着目する。適応性とは学習対象の関数に適応して効率的に関数の近似ができることを指す。関数の滑らかさが入力の位置によって変化し,推定の難しさが一様でない変動指数Besov空間の上で回帰問題を考え、推定誤差を解析し、深層学習の適応性が高い推定精度の要因の一つであることを理論的に示す。また、カーネルリッジ回帰などを含む線形推定量と比較し、推定誤差において深層学習の優位性を示す。
[動画] 57 : GLCICによる欠損補間に基づく教師なし画像異常検知法の提案
深町 悠貴, 徳永 旭将 (九州工業大学大学院博士前期課程情報工学府学際情報工学専攻, 九州工業大学大学院情報工学研究院知能情報工学研究系)
近年、AnoGAN[Schlegl,et al., 2017]のような異常データを使用しない、教師なしの異常検知手法が注目を浴びている。本研究では、GANによる欠損補間技術GLCIC[Izuka,et al., 2017]を用いて画像を再構成することで教師なし異常検知を行う手法を提案し、さらに小さな異常の検知を目的とする。学習にはDAGM2007を用い、工業製品の表面図を想定した実験を行なった。DAGM2007を用いて行われたコンテスト結果との比較や、異常部分を視認できる結果を示すことで、本手法の有効性を検証した。
[動画] 58 : Bayesian Model Averaging による因果効果推定と変分ベイズ法に基づく近似アルゴリズム
堀井 俊佑 (早稲田大学)
線形構造的因果モデルにおいて因果効果を推定するためには,データを生成しているモデルを知っている,あるいは推定する必要がある.しかし,データのみからモデルを推定することは難しく,幾つかのモデルが候補として残るということが考えられる.本研究では,複数のモデルのもとで計算した因果効果をモデルの事後確率で重み付ける推定法を提案する.また,変分ベイズ法を用いた近似アルゴリズムを提案する.
[動画] 59 : 教師なし学習による多変量時系列データからの特徴抽出および外れ値検出
松江 清高, 杉山 麿人 (NII/総研大/東芝インフラシステムズ株式会社, NII/総研大/科学技術振興機構さきがけ)
時系列データからの特徴抽出手法は幅広く研究されているが,多変量時系列データに対する特徴抽出手法に関する研究は未だ少ない.本研究では,時系列データをRBFカーネルを用いて行列表現し,それを積層したテンソルにTucker分解を適用することで特徴量ベクトルを抽出する手法を紹介する.また,抽出した特徴量ベクトルを時系列データにおける組み合わせ外れ値検出問題に適用して,その有用性を示す.
[動画] 60 : DARTを用いたドメイン適応手法TrDARTの紹介
柴田 頼仁, 鈴木 秀男 (慶應義塾大学, 慶應義塾大学)
転移学習の一分野に、ドメイン適応と呼ばれるものがある。ドメイン適応はサンプル数の少ない予測対象データ群の予測精度を向上させるために、似た性質を持つ大量のほかのデータ群の情報を活用する手法である。本発表では、勾配ブースティング木(MART)にニューラルネットのドロップアウトの概念を導入した手法であるDARTをドメイン適応に応用した、新たな手法TrDARTを紹介する。
[動画] 61 : ニュースに対する各種時系列トピックモデルの比較検討
橋本 航, 髙橋 寛治 (Sansan株式会社, Sansan株式会社)
時系列トピックモデルはLDAのトピックにおける単語分布の時間変化を考慮するモデルであり、新型コロナウイルスの感染拡大のようなイベントが、ニュースを始めとした文書に与えた影響を解析するのに優れたモデルである。本研究では、当社サービス内で配信されているニュースにおいて各種時系列トピックモデルを適用・比較し、各モデルの仮定が推論性能に与える影響を明らかにすることを目的とする。
[動画] 62 : 適応的k-近傍法による形状分類
岩田 一貴 (広島市立大学)
形状解析の分野において、形状分類は重要な研究テーマの一つである。一般に形状はベクトル空間におけるデータ点で表現されないので、パターン認識の分野でよく知られた分類手法であるk-近傍法や適応的k-近傍法を形状分類のために適用することは簡単ではない。そこで、本研究では、形状クラスタリングで用いる混合モデルと最適化法を用いることによって、形状分類のために使える適応的k-近傍法を提案する。
[動画] 63 : 話者共通スペクトログラムテンプレートの畳み込み機構をもつ説明可能な深層音声分離法
渡邊 千紘, 亀岡 弘和 (NTTコミュニケーション科学基礎研究所)
音源分離タスクにおいて近年有効性が確認されている深層クラスタリング(DC)法は,まずDNNにより各時間周波数点の特徴ベクトルを抽出し,それらのクラスタリングにより音源分離を行う手法であるが,前段のDNNで抽出された特徴ベクトルの役割を解釈することが困難であった.本研究では,音源分離の仕組みが全話者共通の非負値スペクトログラムテンプレートに基づく畳み込みの形で解釈可能な拡張DC法を提案する.
[動画] 64 : 再生核ヒルベルト空間におけるバンディット問題と近似理論について
竹森 翔, 佐藤 政寛, 大熊 智子 (富士ゼロックス, 富士ゼロックス, 富士ゼロックス)
再生核ヒルベルト空間(RKHS)に属する関数から報酬が生成されるようなバンディット問題を考える。既存のほとんどの手法は、高い計算量を持つが、ここでは、近似理論(approximation theory)を用いて、RKHSのバンディット問題をよく研究されている線形バンディット問題に近似的に帰着させることにより、理論保証は既存のものとほぼ同等でより効率的な手法を提案できることを示す。
[動画] 65 : 合同変換不変性・同変性を持つ Graph Convolutional Network による物理シミュレーションの汎用的な学習
堀江 正信, 森田 直樹, 菱沼 利彰, 井原 遊, 三目 直登 (筑波大学・株式会社科学計算総合研究所, 筑波大学・株式会社科学計算総合研究所, 株式会社科学計算総合研究所, 株式会社科学計算総合研究所, 筑波大学)
物理シミュレーションを学習することによりそれらを高速化する研究が近年盛んに行われている。物理シミュレーションは合同変換に対する不変性・同変性を有していることが多いため、それを学習するモデルにもそれらの特徴があることが望ましい。また、大規模なシミュレーションを取扱うためには軽量な機械学習モデルが必要となる。本研究では、合同変換に対する不変性・同変性を持つ軽量な機械学習モデルを紹介する。
[動画] 66 : 観測点特性を地震観測記録から学習する地震動予測ニューラル・ネットワーク
岡﨑 智久, 森川 信之, 岩城 麻子, 藤原 広行, 岩田 具治, 上田 修功 (理化学研究所, 防災科学技術研究所, 防災科学技術研究所, 防災科学技術研究所, 理化学研究所、NTTコミュニケーション科学基礎研究所, 理化学研究所)
観測記録の統計解析により、地震による各地点での揺れ(地震動)の強さを少数変数から推定する地震動予測式が地震工学や災害リスク評価に用いられる。地震動は観測点直下の地盤構造に強く影響されることが知られている。本研究では観測点をone-hotベクトルで入力するニューラル・ネットワークを構成することで、地点毎の地盤特性を学習しつつ、観測記録の少ない地点・地震規模においても高精度で頑健な推定が行えることを議論する。
[動画] 67 : 深層学習における学習過程の汎化指標解析とハイパーパラメータ最適化への応用
長沼 大樹, 野村 将寛, 横田 理央 (モントリオール大学, Mila, 株式会社サイバーエージェント, 東京工業大学)
近年,深層学習の汎化誤差解析において,情報行列に基づく指標の有効性が実験的に示されている.しかし,(I)学習過程での挙動が明らかではない,(II)実用的な設定では検証がなされていないという問題がある.本研究では,学習過程のモデルに対する汎化指標の実験的解析,膨大な計算量を要する汎化指標に対する近似手法の導入を行った.また,ハイパーパラメータ最適化への適用可能性についても議論する.
[動画] 68 : Adaptive Signal Variances: 深層畳み込みネットワークのための初期化法
邉見 貴彦, ザラ エスメラルド, 廣橋 義寛, 加藤 毅 (群馬大学, 群馬大学, 個人, 群馬大学)
従来,CNN の初期化には,Kaiming らの初期化が標準的に用いられてきた.しかし,Kaiming らの初期化はプーリング層を無視するなど,CNN を単純化して導出されたもので,今日用いられている多様な層を勘案したモデルにはなっていなかった.本研究ではCNN における多様な層を精密にモデル化して初期化法を導出しなおし,その初期化を使ったときの実データにおける CNN 学習のふるまいを調査した.
[動画] 69 : 二段階最適化によるモデル抽出攻撃に対する防御
森 雄人, 二反田 篤史, 武田 朗子 (東京大学大学院情報理工学系研究科, 東京大学大学院情報理工学系研究科, 東京大学大学院情報理工学系研究科・理研AIPセンター)
モデル抽出攻撃と呼ばれる, 機械学習モデルを入出力から再学習する攻撃に対する防御がAPIサービスの発展に伴い喫緊の課題となっている. 本研究では攻撃者と防御者のデータ分布の違いを考慮し, 防御を非凸二段階最適化問題として定式化する. 対象がカーネルモデルの場合, 大域的最適解が多項式時間で求められることを示し, より複雑なモデルに対しても現実的に実行可能な問題の変形と求解アルゴリズムを提案する.
[動画] 70 : Stochastic Weight Averaging (SWA) のハイパーパラメータの影響に関する実験的解析
所畑 貴大, 長沼 大樹, 横田 理央 (東京工業大学, モントリオール大学, Mila, 東京工業大学)
SWAは学習中に重みの平均化を行いアンサンブル学習を近似する手法である。SWAの有効性は多くの実用的な設定で示されているが、その特性は明らかになっておらず、ハイパーパラメータ調整のためのガイドラインが存在しない。本研究ではSWAの最適化手法としての特性に関する実験的解析を行い、ハイパーパラメータの汎化性能への影響を調査した。また、これらの結果から解の安定性について議論する。
[動画] 71 : ヘッセ行列の固有値解析による半教師付き学習における重み平均法の効果理解
楢木 悠士, 本川 哲哉, 長沼 大樹 (早稲田大学, 筑波大学, モントリオール大学, Mila)
StudentのEMAを用いてTeacherを更新するMean Teacher(MT)は、半教師付き学習において広く用いられる。近年、重み平均を用いた疑似アンサンブル手法であるSWAをMTに適用することで更に性能が向上すると実験的に示されている。本研究では、MTとSWAによる重み平均化の効果を分解して理解するため、学習済みモデルの汎化性能と相関のあるヘッセ行列の固有値について実験的解析を行った。
[動画] 72 : 情報行列計算における近似手法の性能評価
井手 達朗, 本川 哲哉, 長沼 大樹 (カリフォルニア大学アーバイン校, 筑波大学, モントリオール大学, Mila)
Fisher情報行列やヘッセ行列・勾配共分散行列などの情報行列は、深層学習の理論研究において近年盛んに用いられている。特に、最適化や正則化、学習ダイナミクスの理解、汎化指標において、情報行列の固有値や対角和は重要な役割を果たしている。しかしながら、深層NNでは計算量が膨大となるため、一般に近似手法によって計算された情報行列が用いられてる。本研究では、これらの近似手法の近似精度と計算時間を評価する。
[動画] 73 : オーバーパラメトライズされた有限ニューラルネットの最適解
園田 翔, 石川 勲, 池田 正弘 (理研AIP, 愛媛大・理研AIP, 理研AIP)
本研究では周期的な活性化関数を持つ浅いニューラルネットをトーラス上のリッジレット変換を用いて解析する。応用として,連続ニューラルネットのL2正則化最小二乗問題の最適解がリッジレットスペクトルで表されることを示す。また,過剰にパラメータをもつ(over-parametrized)有限モデルの最適解について,その極限がリッジレット変換に弱収束することを示す。
[動画] 74 : オートエンコーダを用いた時系列解析のための高自由度な面的点過程モデル
洪 秀俊, 八谷 大岳 (和歌山大学システム工学部, 和歌山大学大学院システム工学研究科)
近年,不規則に空間的に連続で起こる事象を予測する面的点過程が注目されている.従来の点過程を時空間拡張したモデルでは,事象を点と仮定したモデルを用いており,複雑な広がりの表現が困難である.そこで,本研究では,ニューラルネットワークにより高自由度な点過程を実現した方式(Omi et al., 2019)を,オートエンコーダを用いて空間拡張した独自の方式を提案する.そして,トイデータを用いた実験を通し,本提案法の有効性を示す.
[動画] 75 : 回帰モデルにおける影響関数の幾何的解釈
大川内 智海, 切通 恵介, 小山 和輝, 泉谷 知範 (NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社, NTTコミュニケーションズ株式会社)
機械学習モデルの不確実性を再学習なしに評価しようとする場合にしばしば影響関数が用いられる。本発表ではこのうち回帰モデルの影響関数に対する情報幾何的な考察を行う。モデル多様体の含まれる空間の次元を拡大することで影響関数の幾何的な記述が可能になることを示すとともに、この枠組みの回帰モデルによる予測の不確実性の評価に向けた応用を検討する。
[動画] 76 : Deep Inpaintingと空間分布マッチングの組み合わせによる地震動データの空間補完
永吉 耕太郎, 八谷 大岳, 藤原 広行, 上田 修功, 岩城 麻子, 前田 宜浩 (和歌山大学, 和歌山大学, 国立研究開発法人防災科学技術研究所, 国立研究開発法人理化学研究所, 国立研究開発法人防災科学技術研究所, 国立研究開発法人防災科学技術研究所)
本研究では,地震動シミュレーションにより生成した面的画像と,日本全国に点在する観測点の座標以外を欠損させた欠損画像とを用いて,実際に観測可能な欠損画像から面的画像に変換する問題を扱う.従来のクリギング法は観測値の加重和により補間を行うが,地震動の物理モデルは極めて複雑であるため,十分な精度に至らない可能性がある.そこで,本研究では,深層学習を用いた最先端のInpainting法と空間分布マッチングの組み合わせによる,高精度な地震動の空間補間法を提案する.
[動画] 77 : 2点に基づく対数正規分布の推定が正解に近いだろう分布と一致しない例
城 真範, 香川 璃奈 (産総研, 筑波大)
厚生労働省が発表している40歳以上の特定健診の結果(サンプル数3000万人程度)の3階級値から推定した分布の中で、肝臓機能を示す検査値3種だけが、筑波大学の検診データおよび血液検査値の標準化団体が示す基準範囲と合わない例を報告する。標準化団体は「対数正規変換」か「べき変換」を使うことを明記しているので3階級値から対数正規分布を仮定した。特定健診の年次と地域による推定分布差は殆どない。
[動画] 78 : ガウス過程回帰の摂動論的近似
長野 泰志, 中西 (大野) 義典, 福島 孝治 (東大院総合文化研究科, 東大先進科学,JSTさきがけ, 東大先進科学)
ガウス過程回帰はノンパラメトリックなベイズ推論の手法として広く用いられている.有用性の一方でデータ数の3乗の計算量を必要とするグラム行列の逆行列の計算に困難を抱えており,これまで様々な近似推論法が考えられてきた.本研究では,問題のクラスを制限することでガウス過程回帰に摂動論的な近似を与え,近似の有効性を数値的に確かめた.
[動画] 79 : 非対称的な相互作用をもつマルコフ確率場を変形モデルとした非剛体イメージレジストレーション技術の開発
長村 徹, 徳永 旭将 (九州工業大学, 九州工業大学)
異なる条件下で計測された複数の画像を位置合わせする非剛体イメージレジストレーションは,医療画像診断で重要な技術である. 本研究では, 急に成長した腫瘍のように, 比較画像中において対応関係のない構造にも有効な位置合わせの実現を目指す. 具体的には, SURF特徴点マッチングで求めた領域ごとの対応確率を反映させた, 非対称な拘束関係を持つマルコフ確率場を事前分布とするレジストレーション法を提案する.
[動画] 80 : パネルデータに対する一般化Factorization Machine
小宮山 純平, 島尾 肇 (ニューヨーク大学, サンタフェ研究所)
一般化Factorization Machine (gFM)の理論解析はdenseな素性の場合にLin&Ye (2016)によって行われているが、ダミー変数がある場合には適用できない。本研究では、ダミー変数を含んだgFMモデルに対して一致性のある学習アルゴリズムを提案し、結果をシミュレーションで示す。
[動画] 81 : 教師なしオブジェクト指向表現学習の画像ベース強化学習への応用
綿引 隼人, 鶴岡 慶雅 (東京大学, 東京大学)
近年画像認識分野において、生成モデルの訓練を通した教師なしオブジェクト指向表現学習が実現されつつある。これを強化学習の画像入力に対して適用することで、構造化されたタスク非依存な状態表現を環境との相互作用による報酬信号なしに獲得でき、サンプル効率の向上や方策の解釈性の向上などが期待できる。本発表ではオブジェクト指向表現をモデルフリー強化学習に組み込んで性能評価を行い、今後の発展について考察する。
[動画] 82 : 粒子双対平均化法:平均場ニューラルネットワークの大域的収束保証付最適化法
二反田 篤史, Denny Wu, 鈴木 大慈 (東京大学/理研AIP/JSTさきがけ, University of Toronto/Vector Institute, 東京大学/理研AIP)
巨大なニューラルネットワークに対して最適化法の大域的収束性が広く知られてきている.この現象は平均場ニューラルネットワークに対しては最適化の過程を確率測度の空間で捉えることで説明できる.そしてこの理論に基づくと勾配降下法が必ずしも優れた最適化性能を持つとはいえないことが分かる.そこで本研究では理論的により優れた収束性を備えた粒子双対平均化法を提案し平均場ニューラルネットワークに対し有効性を検討する.
[動画] 83 : 修正ユニットに基づくシフト不変な深層学習モデル
鈴木 聡志, 谷田 隆一, 木全 英明 (NTT, NTT, NTT)
Deep Neural Network (DNN)は高い画像認識精度を示しているが,入力の平行移動に対して脆弱で,人間の直感と異なるような挙動が課題となっていた.近年の研究では,DNNの中間層にブラーカーネルを導入する事で平行移動に対して頑健なモデルを実現しているが,DNNを初期値から学習するため,大幅な学習時間と計算機リソースが必要となっていた.本研究では,学習済みのDNNの中間出力を修正するユニットを導入する事で,効率的な学習を可能にした.
[動画] 84 : マルチクラスAUC最大化を用いた台風発達予報
黒良 峻平, 八谷 大岳, 嶋田 宇大, 上田 修功 (和歌山大学大学院システム工学研究科, 和歌山大学大学院システム工学研究科/理化学研究所革新知能統合研究センター, 気象研究所)
近年,強い台風による甚大な被害が問題となっている.従来の台風発達予測では,正規分布を仮定した線形モデルを用いており,事例が少ない急発達や急衰弱の事象の予測が困難である.そこで,本研究では,不均衡な多クラス分類問題を解消するためにマルチクラスAUC最大化と時系列解析に特化したLSTMを組み合わせた手法を提案する.そして,台風発達5クラス分類の実験にて,本提案法の有効性を示す.
[動画] 85 : Auxiliar Dataset on Few Shot Learning with Weight Imprinting
Paulino Cristovao, Hidemoto Nakada, Yasuke Tanimura, Hideki Asoh (University of Tsukuba, National Institute of Advanced Industrial Science and Technology)
How to train models with few or single examples? Few Shot Learning techniques address this question by learning from limited samples and rapidly adapt to novel samples. In this work, we review a prominent approach categorized as weight imprinting. We apply an auxiliary dataset to improve the feature representations for the task. This approach enables the feature extractor to learn richer representation. This technique can be naturally extended since a similar dataset can be gathered. We also review Few Shot Learning performances on a small network with two layers in contrast with the commonly used ResNet18.
[動画] 86 : 材料の力学特性向上に向けた微細構造探索手法の開発
小島 隆嗣, 鷲尾 隆, 原 聡, 小石 正隆 (横浜ゴム株式会社,大阪大学, 大阪大学, 大阪大学, 横浜ゴム株式会社)
材料特性は微細構造の影響が大きい。所望の材料特性を効率的に実現するには、その特性を実現する微細構造を計算機上で探索、解析することが有効である。しかし、その様な微細構造の発生確率は非常に小さいことが多く探索は容易でない。そこで、レプリカ交換MCMCと勾配法を基調とした超高次元の微細構造の探索方法を確立した。探索過程での微細構造から特性値の計算にはCNNで構築した分子動力学法の代理モデルを使用した。
[動画] 87 : Hypergraph Clustering via PageRank
高井 勇輝, 宮内 敦史, 池田 正弘, 吉田 悠一 (理研AIP, 東京大学, 理研AIP, NII)
ハイパーグラフは、高次の関係をモデル化するための有用なオブジェクトである. また, ハイパーグラフのクラスタリングはネットワーク分析の基本的な手法である. 本研究では、ハイパーグラフの personalized PageRank に基づいたクラスタリングアルゴリズムとして, 特定の頂点を含む限られた体積を持つ密に接続された頂点集合を見つけることを目的とするという意味でローカルなものを開発した. このアルゴリズムについて、出力頂点集合のコンダクタンスが理論的に保証されていることを議論する. また、私達のクラスタリングアルゴリズムが解の質と実行時間の両方の点で既存の手法よりも優れていることを実験的に実証した. 私達の知る限りでは、このアルゴリズムは、出力集合のコンダクタンスが理論的に保証された最初の実用的なハイパーグラフのアルゴリズムである.
[動画] 88 : Variable Importance Cloudの要約方法と決定木に対する実験的評価
又 康太, 金森 憲太朗, 有村 博紀 (北海道大学, 北海道大学, 北海道大学)
本稿では,Dong と Rudinらが提案したVariable Importance Cloud(羅生門集合上の変数重要度ベクトルの集合)の要約方法を提案する.決定木のクラスに対して,実データセット上で提案した要約情報を求め,その有用性について検証を行う.
[動画] 89 : 非可逆圧縮データからの高速な画像生成
管谷 克彦, 高畠 嘉将, 井 智弘, 申 吉浩, 坂本 比呂志 (九州工業大学, 九州工業大学, 九州工業大学, 学習院大学, 九州工業大学)
画素値の代わりにJPEGの離散コサイン変換(DCT)係数を入力とすることでCNNによる画像分類を高速化できることが知られている (NIPS2018).しかし,DCT係数は冗長性の観点で改良の余地がある.本研究では,このモデルを画像生成へ拡張し,冗長性を削減したDCT係数からの画像生成が可能であることを示す.実験では,MNISTで通常の手法に対し7倍から9倍の高速化が達成できたことを確認した.但し,生成画像の画質の改善が今後の課題である.
[動画] 90 : 深層学習超解像による復元画像を用いた 脳腫瘍MRI画像のセグメンテーション
黒崎 将, Tania Sultana, 實松 豊, 久原 重英, 竹内 純一 (九州大学 大学院システム情報科学府, 九州大学 大学院システム情報科学府, 九州大学 大学院システム情報科学府, 杏林大学 保健学部, 九州大学 大学院システム情報科学府)
本研究の目的は,磁気共鳴画像(MRI画像)を用いた脳腫瘍の分類に対してMRCNN(多重解像度CNN)と呼ばれるMRI画像復元手法を適用し,その有効性の評価を行うことである.検出器としては,VGG16転移学習モデルを採用した.データにMRCNN適用した場合,1/20にアンダーサンプリングしたデータに基づく検出率は約93%,1/10のデータでは約92%という結果を取得した.
[動画] 91 : 対数線形モデルを基とした生成的分類器と識別的分類器のロジスティック汎化誤差の収束の比較
西本 洋紀, 松島 慎 (東京大学, 東京大学)
分類問題における生成モデルと識別モデルの優劣については複数の先行研究で議論されてきたが、理論的な解析の容易さのため、分類性能の観点で実用的でない分類器が対象とされたり、実際には計算が困難な分類器の学習方法が選択されたりする等の問題点があった。本発表では、先行研究よりも包括的かつ実用的な問題設定の下で、汎化誤差をデータ数と次元に関して新しい手法で評価し、両者の優劣を比較した結果について述べる。
[動画] 92 : 退化ポテンシャルを持つ特異モデルにおける双対平坦構造について
中島直道 (北海道大学大学院情報科学院)
甘利,長岡により導入された双対平坦構造は情報幾何学における中心的な概念であり,統計科学や機械学習,最適化問題等における様々な側面に対して見通しの良い統一的な幾何学的解釈をもたらす.しかし,実応用ではしばしば擬リーマン計量は退化し,双対平坦構造は破綻する.本発表ではそのような特異モデルへの双対平坦構造の一般化を導入し,甘利,長岡の拡張ピタゴラスの定理がこの特異的状況においても成立することを示す.
[動画] 93 : マルチモーダル時系列にもとづくTVCMの評価予測
熊谷 雄介, 町田 尚基, 三木 一弘, 久原 卓, 藤原 晴雄, 道本 龍 (株式会社博報堂, 株式会社アイズファクトリー, 株式会社テクノプロ, 株式会社博報堂, 株式会社博報堂, 株式会社博報堂)
本研究では調査パネルの TVCM に対する評価の予測に取り組む.提案手法の特徴は「シーンにおける音声,映像,フローを考慮した特徴抽出」「シーン間の時系列性の考慮」「注意機構による評価とシーンとの関係解釈」の3点である.14,000本の実動画を用いた予測実験の結果とその適用結果を報告する.
[動画] 94 : 部分観測問題におけるトンプソン抽出アルゴリズムの設計とリグレット解析
土屋 平, 本多 淳也, 杉山 将 (東京大学,理研AIP, 東京大学,理研AIP, 理研AIP,東京大学)
トンプソン抽出の部分観測問題における理論的性質は未知であり,また,既存法は事後分布のヒューリスティックな近似に基づいている.そこで,近似を用いないトンプソン抽出に基づいたアルゴリズムを考案し.さらに,提案法がO(logT)のリグレット上界を達成可能であることを示した.この上界は,部分観測問題におけるトンプソン抽出の最初の上界であり,さらに線形バンディットにおける最初のlogオーダーの上界である.
[動画] 95 : 機械学習型サービス運用時の課題と実践的手法
加藤 整, 西澤 博之, 島崎 景子, 前田 英一, 桑原 貴文, 丸井 智景 (トヨタ自動車, トヨタ自動車, トヨタ自動車, トヨタ自動車, トヨタ自動車, トヨタ自動車)
機械学習が産業適用されている現在、従来のソフトウェア工学と比較して品質保証・検証・運用が課題として認識されつつある。運用面では人的、システム的な最善慣行がMLOpsとして蓄積されつつあるが、適用範囲は運用全体の一部に限られる。本稿ではMLOps適用範囲を俯瞰した上で、我々が取り組んでいる自然言語のクラス分類タスクを産業適用した際のモデル検証体制、エラーハンドリングを含めたモデル更新手法を紹介し、有効性について議論する。
[動画] 96 : 交絡の存在を許容するLiNGAMの一般化
鈴木 讓 (大阪大学)
交絡を許す因果推論を行い、効率の良いアルゴリズムを提案する
[動画] 97 : 逆イジング問題のレプリカ法による性能解析:教師の結合が疎な場合
Alia Abbara, 樺島 祥介, 小渕 智之, 許 インイン (ENS, 東工大&東大, 京大, 理研AIP)
逆イジング問題あるいはボルツマン学習と呼ばれる逆問題の性能解析を、教師-生徒シナリオで教師が疎結合な場合に行ったのでこれを報告する。コスト関数を擬尤度にすることにより、適切なスケールのもとでの解析を自然に行うことができる。データの生成過程における平均をレプリカ法によってとり、現れた有効問題はCavity法によって解析した。結果、データサイズMがスピンNに比例する熱力学極限で、確率1で教師の結合を再構成することができることが示された。
[動画] 98 : 指数対数パーセプトロンによる積型DNNの設計
長瀬 准平, 斎藤 侑輝, 中村 拓磨, 石渡 哲哉 (芝浦工業大学大学院/ZOZO研究所, ZOZO研究所, ZOZO研究所, 芝浦工業大学)
現代では様々な分野で多くのDNNモデルが提案・活用されているが,その体系的な理論の整備は未だ行われていない.本研究では,近年注目を集めるDNNモデルであるTransformerについて着目し,有限の表現能力の議論を行う.結果として,指数関数と対数関数を活性化関数に持つパーセプトロンでTransformerなどの積型DNNを構成できることを示し,それらモデルの統一化およびモデル構造の体系化を試みる.
[動画] 99 : Piano score vectorization using fasttext
Yingfeng Fu, Yusuke Tanimura, Hidemoto Nakada (The University of Tsukuba, AIST, AIST)
As representation learning techniques in natural language processing become more and more mature, we could utilize this advantage in sentiment analysis, natural language generation/ understanding, and so on. A well-trained word vector representation could save you a lot of effort in solving downstream tasks. Same as language, music could also be understood as a kind of sequence data with a determined alphabet and tokens. In this work, we want to further discover the possibility of adapting Facebook’s fasttext model on pianoroll. We train the model in both supervised and unsupervised settings. And then we evaluate the word vector by word similarity, word analogy, and a classification task. The result shows the power of the word-vector model in pianoroll representation and gives us the hope to apply it to future tasks.
[動画] 100 : フィルタサイズの選択機構を導入した背景学習による対象領域抽出
植田 祥明, 中村 凌, 藤木 淳, 田中 勝 (福岡大学, 福岡大学, 福岡大学, 福岡大学)
画像識別問題において,対象領域を抽出し,背景領域の情報を大雑把に取り除いた画像を用いることで識別精度が向上するという報告がなされている.従来手法では画像から切り出した小領域に対しCNNによる2クラス識別を行うことで対象領域が抽出される.本研究ではCNNの畳み込み層にフィルタサイズの選択機構を導入するとともに,小領域内の画素毎に対象領域らしさを求めることで識別対象を精度良く抽出する方法を提案する.
[動画] 101 : Frank-Wolfe Learning Algorithm For SVM-type Multi-Category Classifiers : SVM 型多クラス分類器のためのフランクウルフ学習法
田島 賢哉, 廣橋 義寛, ザラ エスメラルド, 加藤 毅 (群馬大学, 個人, 群馬大学, 群馬大学)
Crammer&Singer が SVM を多クラス分類に拡張して以降,多くの変種が提案されてきた.本発表では,多クラス SVM とその変種の学習のためのフランクウルフ法を開発した.本研究では,ある条件を満たすとき,そのフランクウルフ法の各ステップは閉形式で与えられることを発見した.
[動画] 102 : データの決定ダイアグラム表現に基づく1ノルム正則化ソフトマージン最適化
黒河 祐太, 三星 諒太朗, 畑埜 晃平, 瀧本 英二, Holakou Rahmanian (九州大学, 九州大学, 九州大学/理研AIP, 九州大学, Amazon)
本研究では,データの決定ダイアグラムに基づく簡潔表現が与えられた下で,簡潔表現上の1ノルム正則化ソフトマージン問題の定式化を与える.本定式化のサイズはデータのサイズによらず,簡潔表現のサイズにのみ依存する.特に,ハードマージン(線形分離可能)の場合は,本定式化は非圧縮版の元の定式化と等価である.さらに,本研究では,計算/メモリ効率の良い解法を提案する.
[動画] 103 : 独立な学習者・項目ネットワークをもつパラメータ解釈性向上のためのDeep-IRT
堤 瑛美子, 木下 涼, 植野 真臣 (電気通信大学, 電気通信大学, 電気通信大学)
近年,人工知能分野では教育ビックデータに基づいて学習過程における学習者の能力値を推定し,未知の項目への反応予測を行うKnowledge Tracingが注目されている.最新の手法であるDeep-IRTは高い反応予測精度を示し,解釈可能な能力値・項目難易度パラメータをもつが,各項目の特性が異なる場合には解釈性が低下する問題がある.本研究では二つの独立な学習者ネットワークと項目ネットワークによってパラメータの解釈性を高めた新しいDeep-IRTを提案する.
[動画] 104 : 属性情報の不確実性を考慮したゼロショット生成モデル
阪井 優太, 三川 健太, 後藤 正幸 (早稲田大学, 湘南工科大学, 早稲田大学)
近年,訓練データ集合に含まれないカテゴリの推定を,全データで共通する属性情報を活用することで可能とする属性ベースゼロショット学習が注目されている.その従来手法の1つであるDAPでは,カテゴリの推定に重要な属性以外の推定結果が分類精度を低下させてしまう場合がある.そこで本研究では,属性の推定結果の不確実性を考慮したゼロショット生成モデルを提案する.また,従来手法と比較することで提案手法の有効性を示す.
[動画] 105 : Accelerated ensemble sampling for stochastic gradient Hamilton Monte Carlo
二見 太, 岩田 具治, 上田 修功, 佐藤 一誠 (NTT, NTT, NTT, 東京大学)
Ensemble sampling has recently become a standard method because it can simultaneously update multiple sampling with interactions and is more efficient than naive parallel sampling which updates samples independently. Many ensemble sampling methods have been developed based on stochastic gradient Langevin dynamics (SGLD). Recent theoretical analysis clarified that interactions accelerate the convergence of SGLD. In contrast, there is another direction to accelerate SGLD using second-order dynamics, known as stochastic gradient Hamilton Monte Carlo (SGHMC). Although combining ensemble sampling with SGHMC is a natural idea, existing theories cannot be applied to guarantee ensemble acceleration in SGHMC. That is, it is unclear which combination is the theoretically valid approach for acceleration. In addition, combination introduces many hyperparameters into the dynamics, which are difficult to tune. In this paper, we present ensemble sampling for SGHMC with novel theoretical analysis and a practical algorithm. Our analysis clarifies that the interaction perturbs the Hessian matrix of the potential function, which results in acceleration. With this analysis, we develop a tuning algorithms for the hyperparameters.
[動画] 106 : ユーザの意思決定過程に関するドメイン知識を組み込んだ解釈可能な映像監視モデリング
兵頭 亮介, 中野 鐵兵, 小川 哲司 (早稲田大学, 早稲田大学, 知能フレームワーク研究所, 早稲田大学)
第一次産業を始めとする実応用領域では,人間の意思決定支援のための機械学習の活用が期待されている.このような領域では,整備された大規模データが想定できず,解釈性が求められるため,End-to-Endなアプローチを適用することは現実的ではない.本研究では,ユーザの意思決定の過程を組み込む構造により,少量データでも頑健で,ドメイン知識に基づく予測の根拠が解釈可能な映像監視モデリングを提案する.
[動画] 107 : 深層展開型勾配法の収束加速現象の解析と応用
高邉 賢史, 和田山 正 (名古屋工業大学, 名古屋工業大学)
深層展開は深層学習技術の一種であり,既存の反復アルゴリズムの繰り返し構造を展開して学習可能パラメタを埋め込み,それらを訓練データから学習することで収束速度を向上させる特徴を持つ.本発表では,勾配法に深層展開を組み合わせた深層展開型勾配法におけるステップサイズの学習結果の数理的な解釈を行い,深層展開の収束加速の数理的機構を明らかにする.さらに,その機構が他の不動点反復法へ応用可能であることを示す.
[動画] 108 : 近似ベイズ計算を用いたベジエ単体フィッティングの理論解析
田中 章詞, 三内 顕義, 小林 健, 濱田 直希 (理研iTHEMS/理研AIP/慶應義塾大学, 理研AIP/慶應義塾大学, 富士通研究所/理研AIP, KLab株式会社/理研AIP)
ベジエ単体フィッティングは多目的最適化問題のパレート集合を近似するためのモデリング手法であり,パレート集合の幾何学的構造を利用して効率的なフィッティングを行う.近年,ベジエ単体の確率モデルへの拡張と近似ベイズ計算を用いたフィッティング法が提案され,その有用性が実験的に示された.本研究では近似ベイズ計算を用いたベジエ単体フィッティング法の収束性について解析し,その結果を報告する.
[動画] 109 : 個人向けローン利用顧客のデフォルト判別のための転移学習
杉山 聖貴, 松井 秀俊 (滋賀大・日本総研, 滋賀大)
信用リスクの領域では,貸し手の組織規模や新規ローン商品,種類等により,貸出実績データが少なく,正確な与信判断の妨げになることがある.本研究では,個人向けローン商品利用顧客のデフォルト判別のために,十分に蓄積された別のローンデータを転用する.そのために,Feature Transfer Methodによる特徴量変換とAdversarial Classifierを利用したインスタンス選択を適用する.判別精度の観点でデフォルト判別に寄与することを示す.
[動画] 110 : スペクトラル・クラスタリングの性能解析
水谷 友彦 (静岡大学)
スペクトラル法はデータのグループ分けの手段としてよく利用されている. 2015年にPengらはスペクトラル法の性能を解析した.彼らはグループ分けの良さをコンダクタンスを用いて評価し,グラフがwell-clusteredのときスペクトラル法の出力は最適なコンダクタンスを与える分割をよく近似することを示した.この結果は2016年にKolev-Mehlhornによって改善された.本研究ではPengらの結果は更に改善できることを示す.
[動画] 111 : 最大エントロピー逆強化学習の性能評価
中口 悠輝, 窪田 大 (NEC, NEC)
人手による報酬関数設計を回避するため、熟練者の軌跡から報酬関数を推測する逆強化学習の研究が近年盛んである。しかし、その主流の最大エントロピー逆強化学習において、推測された報酬関数の性能(その最適方策が真の報酬をどれだけ稼ぐか)を見積もる方法が無く、結果をどれだけ信頼できるか分からないのが実用上問題である。そこで本研究では、最大エントロピー逆強化学習にて、その性能の見積もりについて理論的に議論する。
[動画] 112 : エネルギー保存則・散逸則を保証する深層物理シミュレーション
松原 崇, 石川 歩惟, 谷口 隆晴 (大阪大学, 神戸大学, 神戸大学)
機械学習で物理現象をモデル化することは,高速なシミュレーションや未知の現象の発見などに繋がると期待されている.しかし一般に離散時間では,様々な保存則・散逸則が成立せず,長時間シミュレーションが破綻する.本発表は自動離散微分という新たなアルゴリズムを提案する.深層学習に適応した場合,エネルギーの保存則・散逸則を厳密に保ち,従来の数値積分を用いた手法よりも高い精度でモデル化できることを確認した.
[動画] 113 : モデルの予測の類似事例による説明の妥当性評価
塙 一晃, 横井 祥, 原 聡, 乾 健太郎 (理研AIP/東北大学, 東北大学/理研AIP, 大阪大学, 東北大学/理研AIP)
機械学習モデルの予測と併せて類似した訓練事例を提示することでユーザのモデルへの信頼性を向上させることができる。本研究では、様々な類似度指標がユーザへの説明として妥当な事例を提示できているのかについて、最低限満たすべきと考えられる要件を通して調査した。結果「損失に対する勾配の余弦類似度」が最も良好な性質を示した。いくつかの指標はユーザへの説明として適切でないことが分かり、その原因を分析した。
[動画] 114 : グローバルな情報を加味するセマンティックセグメンテーションとラベルの重複を許す分類のジョイントの学習
平野 北斗, 竹本 和広, 大北 剛 (九州工業大学, 九州工業大学, 九州工業大学)
CT画像において, 血腫などのように輪郭が動的に変化する物体を動的に認識する場合を考える. グローバルな情報を加味してセマンティックセグメンテーションを行い, 分類ラベルに重複を許す分類をジョイントで行う手法を提案する. 動機の1つ目は, 背景となる3次元構造を考慮する場合, この構造はグローバルに依存するため, 必ずしもCT画像での白色領域を従ってセグメントすると誤りになるケースが発生し, ローカルな情報にしたがってグローバルな情報を見落したことを原因とする問題を生ずる. 2つ目は, 畳み込みNNでは輪郭情報が分類のキーとなることが多いが, 血腫などの動的物体では輪郭よりテクスチャに情報をもっている. 本発表では, これら2つの問題点を解決するために, ラテント変数を追加したセマンティックセグメンテーションのモデルを提案し, 分類のブランチではテクスチャなどの情報を用いる. 同時に, データ不均衡問題などにより埋め込み表現の精度を向上させる.
[動画] 115 : 順序Factorization Machinesとその応用
大槻 知貴 (株式会社ビズリーチ)
本発表では、順序プロビット回帰のベイジアンな定式化をレビューしたのち、そのFactorization Machinesへの拡張と、高速かつ数値的に安定なGibbs Samplerの実装を提案する。また、この手法による* Movielens 10Mなどのレーティング予測問題の精度改善* ビズリーチデータにおける給与推定などの応用について簡単に紹介する。
[動画] 116 : 深層モデルにおいて高速に収束する近似自然勾配法の理論解析
唐木田 亮, 大沢 和樹 (産業技術総合研究所, 東京工業大学)
大規模な深層モデルでは計算コストを抑えるため, Fisher情報行列を近似した自然勾配法が利用される. 具体的には, 層毎あるいはユニット毎のブロック対角近似, さらにはK-FAC近似が知られる. 本研究はneural tangent kernel理論を使い, モデルの幅無限大の極限では, これらの近似自然勾配法が近似無しの自然勾配法と全く同じ速さ(収束レート)で収束できることを示す. ここでは, 関数空間における勾配の等方性が重要な役割を果たす.
[発表キャンセル] 117 : TransformerとVAEによる未来予測
小島 亮一, レガスピ ロベルト, 和田 慎弥 (株式会社KDDI総合研究所, 株式会社KDDI総合研究所, 株式会社KDDI総合研究所)
[動画] 118 : 集合関数のlocalizabilityを用いた局所探索法の近似保証
藤井 海斗 (国立情報学研究所)
局所探索は、基本的なアルゴリズム設計の技法であり、さまざまな組合せ最適化問題に用いられている。本研究では、集合関数のlocalizabilityという性質を新しく提案し、組合せ的な制約をもつ集合関数最大化に対する局所探索法に近似保証を与える。また、提案した枠組みをスパース最適化に応用し、局所探索法を高速化する手法も提案する。