ポスターセッション1


テクニカル・トラック

T-01: Q統計量における0値の母固有値に当たる主成分項の従う近似分布

発表者:小林靖之(帝京大)

概要:マハラノビス距離は母共分散行列の固有値がすべて0より大きい必要がある.しかし,実際には学習サンプルの従う確率分布の母共分散行列の母固有値が0を含む場合がある.この場合を含め,標本共分散行列の固有値が非常に小さいときにはQ統計量を併用する解析が有効とされるが,Q統計量が従う既存の近似分布モデルは母固有値が0を含む場合を扱えなかった.そこで本報告では,母固有値が0値である標本固有値と対応するQ統計量の主成分項の従う確率分布について,数値誤差の影響を理論的に検討してχ2分布による近似モデルを提案した.数値実験により,モンテカルロシミュレーションで得た両量の経験分布が近似モデルと概ね合うことを示した.

T-02: Adaptive scaling for soft-thresholding estimator

発表者:Katsuyuki Hagiwara(Mie Univ.)

概要:本研究では,ノンパラメトリック直交回帰モデルにおいて,component-wiseかつdata-depenentという意味で適応的なスケーリングをsoft-thresholding推定量に対して導入し,そのリスクを導出するともに,モデル選択規準を構成した.この枠組みは,機械学習におけるスパース学習法として知られるLASSOの特別な場合に対応し,信号処理分野におけるwavelet denoisingを含むものである.

T-03: スパースガウシアングラフィカルモデルのロバスト推定

発表者:廣瀬 慧(阪大)・藤澤洋徳(統計数理研)

概要:ガウシアングラフィカルモデリングは,遺伝子ネットワークやソーシャルネットワークなど,様々なネットワーク構造を推定する方法として広く用いられている.変数の数が多い場合,パラメータ数が膨大となり,L1正則化最尤法によるスパース推定が有効に機能する.ガウシアングラフィカルモデルは,裾の軽い正規分布を仮定しているため,外れ値に大きく影響を受ける.この問題に対処するため,本稿では,γ尤度法に基づくロバスト推定を行う.モデルに含まれるパラメータを効率的に推定するために,目的関数の単調性を保証するMajorize-Minimzationアルゴリズムを導出する.

T-04: スパース表現を用いた非線形多層主成分分析における学習結果の分類法について

発表者:香田夏輝・渡辺澄夫(東工大)

概要:非線形多層主成分分析法は、深層学習を用いることにより高次元データの中に存在する非線形な構造を抽出できる方法として期待されているが、学習モデルが強い非線形性を有するために学習結果が一意に定まらないという問題点を有している。また、深層学習に用いられる学習モデルはパラメータと確率分布との対応が一対一ではなくパラメータの値だけから学習結果を分類する方法が確立されていない。本研究では、非線形多層主成分分析にスパース学習法を適用することでパラメータを特定可能にし、さらに階層クラスタリングによって学習結果を分類する方法を提案する。また提案法を高次元経済情報に適用し、ユニークな構造を取り出せることを明らかにする。

T-05: Wildcardを許容した頻出部分グラフマイニング

発表者:岡崎文哉・瀧川一学(北大)

概要:頻出部分グラフマイニングにより見つかる部分グラフには一部のラベルのみが異なるだけの類似部分グラフが多数存在する.したがってラベルを区別しないWildcardを許容した部分グラフは有用なパターンとなり得る.しかし,Wildcardを許容すると列挙される部分グラフ数が膨大に増えてしまう.そこで,本稿では,頻出部分グラフマイニングのアルゴリズムであるgSpanをベースとした従来手法を拡張し,Wildcardを許容した頻出部分グラフパターンの列挙とその飽和パターン集合・極大パターン集合を求める手法を提案する.実験により,Wildcardを許容することによる頻出パターン数の増加,および,飽和パターン・極大パターンによるパターン集合要約の効果を検証する.

T-06: LDAを用いたセルオートマトンによる交通流の分析

発表者:山崎啓介(東工大)

概要:近年,自動車の運転行動に関するデータ分析が盛んに行われており運転支援システムや自動運転システムへの応用が期待されている.こうしたシステムではドライバーの行動を予測することが重要であり,そのためのモデル構築が課題である.本稿では集団走行のデータからドライバーの速度決定則を抽出するセルオートマトンモデルに着目しトピックモデルであるLDAを用いてこのオートマトンの拡張を行う.提案モデルは異なる状況下で採取された複数のデータセットを効果的に取り扱う構造を有しており,その有効性を実車の交通流データに適用することで実験的に確認する.

T-07: セルオートマトンを用いた自律的な車線変更モデルによる交通流最適化の研究

発表者:梶 大介(デンソー)・山崎啓介(東工大)

概要:近年、自動運転車の実用に向け自動制御による車線変更機能においても多くの成果が報告されている。一方、これらの自動車線変更機能の多くは車両個々の制御に関するものあり車線変更が及ぼす交通流への影響については考慮されていない。本研究ではセルオートマトン(CA)を用いたモデルにより、単純なルールに確率的な挙動を加えた自律的な車線変更モデルが車線の有効利用および交通流の最適化に有効であることを示す。

T-08: ノンパラメトリックモデルのe混合推定とその応用

発表者:高野 健(早大)・日野英逸(筑波大)・赤穂昭太郎(産総研)・村田 昇(早大)

概要:混合モデルは機械学習の様々な場面で,複雑な確率密度関数の近似や情報の統合を目的として用いられる.情報幾何の文脈では典型的な混合モデルとして,m混合とe混合の二種類が考えられる.m混合はコンポーネントとなる確率密度関数の単なる重み付き平均だが,一方の e 混合は幾何平均や調和平均といったような少し変わった形の混合となり,推定は困難になる場合がある.本稿ではこの e 混合に注目し,コンポーネント分布にノンパラメトリックモデルを想定したノンパラメトリックモデルのe混合の推定を行う.実験では利用者適合や転移学習といった状況を考え,人工データにおける推定問題や脳波の実データにおける判別問題に提案アルゴリズムを応用する.

T-09: 非負値行列分解の情報幾何

発表者:奈良寧々花・高野 健(早大)・日野英逸(筑波大)・赤穂昭太郎(産総研)・村田 昇(早大)

概要:行列分解はデータから特徴を抽出する手段として広く利用されている.本論では行列の要素が全て非負であるとする非負値行列分解(NMF:Non-negative Matrix Factorization)について,情報幾何の観点からアプローチを試みる.まずはデータを確率分布の空間に落とし込むために,データ行列Xと分解後の行列D,Cのそれぞれの列を分布へと変換する.その上でそれらの行列の間に成り立つ関係を議論し,最終的にはNMFの目的である,XとDCとの距離の最小化を拡張ピタゴラスの定理を用いた更新法により実現する.

T-10: LiDAR深度データを用いたCNNブレーキシーン認識

発表者:嶋田達之介・松原拓央・園田 翔・村田 昇(早大)・パトリシア オータル・加藤真平(名大)

概要:自動運転に向けて車両のセンサを利用しブレーキシーンを認識します。用いるセンサデータ(入力データ)は運転時に取得したカメラ画像、及びLiDARの点群データを画像上に配置したものとなります。モデルはConvolutional Neural Networkを用い、ブレーキ制御信号を教師データとして学習・判別します。

T-11: τ-情報幾何におけるq-正規分布族の扱いについて

発表者:田中 勝(福岡大)

概要:測度空間上での平行移動を拡張することで得られる$tau$-情報幾何学は,甘利らにより整理・発展させられた情報幾何学を含んでいる.そのことを明確に示すために,非指数型分布族の例である$q$-正規分布族を用いて$tau$-情報幾何学の枠内ではどのように取り扱われるのかを示す.これにより,指数型分布族も非指数型分布族も区別することなく,同一の枠組みで取り扱うことができることがわかる.

T-12: ランダムウォークグラフカーネルの停止に関する解析

発表者:杉山麿人(阪大)・Karsten Borgwardt(ETHZ)

概要:Random walk kernels measure graph similarity by counting matching walks in two graphs. In their most popular instance, geometric random walk kernels, longer walks of length $k$ are downweighted by a factor $lambda^k$ ($lambda < 1$) to ensure convergence of the corresponding geometric series. It is known from the field of link prediction that this downweighting often leads to a phenomenon, which we refer to as halting here: Longer walks are down weighted so much that the similarity score is completely dominated by the comparison of walks of length 1, which is a na{“i}ve kernel between edges and vertices. We here show theoretically that halting may occur in geometric random walk kernels and quantify its impact empirically in simulated datasets and popular graph classification benchmark datasets. Our findings promise to be instrumental in future graph kernel development and applications of random walk kernels.

T-13: 自己情報コントロール設定における線形分類学習の理論的脆弱性評価

発表者:小林星平(筑波大)・奥村翔太・竹内一郎(名工大)・佐久間 淳(筑波大)

概要:データ提供者自身によるプライバシコントロールのために, 機械学習においても, データ提供者が学習者に提供した後の自身のデータを操作できることが必要とされてきている.このような機械学習における自己情報コントロール設定では, 乗っ取りや毒データの追加によって訓練データを直接操作し, 予測性能の劣化や予測結果の改竄を行うような攻撃への対処が必要となる.本研究では, 機械学習で基本的かつ広く用いられる線形分類問題における自己情報コントロールと, それに対する攻撃について議論する.本稿では, 訓練データの操作が予測結果をどれだけ変化させるかを, データの追加・変更・削除に対する感度分析を用いて測る.我々の解析の結果, 操作されるデータ数 $m$, 訓練データ数 $n$ とすると, 操作によって起こる予測結果の変化の期待値は $O(m / n)$ に比例することが分かった.このことから, 線形分類問題では, 訓練データ数が十分多ければ, どれだけ強力な攻撃者でも操作するデータ数を増やすことでしか予測を望みの値に近づけることができないことが示される.また, 我々の結果とは一見矛盾する, たった一つの毒データ追加で大きく予測性能を劣化させる Poisoning Attack を解析することで, 効果的な攻撃の成功条件とその対処方法について考察する.

T-14: Task Selection for Bandit-Based Task Assignment in Heterogeneous Crowdsourcing

発表者:Hao Zhang(Tokyo Tech)・Masashi Sugiyama(UTokyo)

概要:Task selection (picking an appropriate labeling task) and worker selection (assigning the labeling task to a suitable worker) are two major challenges in task assignment for crowdsourcing. Recently, worker selection has been successfully addressed by the bandit-based task assignment (BBTA) method, while task selection has not been thoroughly investigated yet. In this paper, we experimentally compare several task selection strategies borrowed from active learning literature, and show that the least confidence strategy significantly improves the performance of task assignment in crowdsourcing.

T-15: ガウス過程を用いた選択的サンプリングとその材料分野への応用

発表者:平野大輔(名工大)・豊浦和明(名大)・世古敦人(京大)・志賀元紀(岐阜大)・桑原彰秀(JFCC)・烏山昌幸(名工大)・設楽一希(京大)・竹内一郎(名工大)

概要:材料分野において未知な物理現象や物性を知るために, 物質内のポテンシャルエネルギー曲面(PES)全体を評価する必要がある. しかし, PESを正確に評価するために膨大な計算コストが必要とされる. 本研究では, 機械学習の導入により計算コスト削減を目指している. 今回は, ガウス過程を利用し興味のある領域を集中的に評価する手法を提案する. 計算機実験では低エネルギー領域を同定する過程で, 提案法の有益性を示す.

T-16: Geometry-aware stationary subspace analysis for multivariate time series

発表者:Inbal Horev(Tokyo Tech)・Florian Yger(Universite Paris-Dauphine)・Masashi Sugiyama(UTokyo)

概要:Stationary subspace analysis (SSA) is a method to extract the stationary part of an observed mixture of stationary and non-stationary signals. To do so it uses a cost based on a divergence function for covariance matrices. Stemming from a symmetrized version of this divergence function, in this paper we propose an SSA method based on the Riemannian geometry of symmetric positive definite (SPD) matrices. This method is useful for the analysis of neurological data, which is highly non-stationary.

T-18: Online Markov decision processes with policy iteration

発表者:Yao Ma・Hao Zhang(Titech)・Masashi Sugiyama(UTokyo)

概要:The online Markov decision process (MDP) is a generalization of the classical Markov decision process that incorporates changing reward functions. In this paper, we propose practical online MDP algorithms with policy iteration and theoretically establish a sublinear regret bound. A notable advantage of the proposed algorithm is that it can be easily combined with function approximation, and thus large and possibly continuous state spaces can be efficiently handled. Through experiments, we demonstrate the usefulness of the proposed algorithm.

T-19: 音楽音響信号解析のためのステューデントt分布に基づく非負値行列分解と半正定値テンソル分解

発表者:吉井和佳・糸山克寿(京大)・後藤真孝(産総研)

概要:本稿では,非ガウス性モノラル音響信号に対して音源分離を行うのに適した,非負値行列分解 (NMF) と半正定値テンソル分解 (PSDTF) の新しい確率モデルを提案する.従来,複素スペクトルは平均を0とする複素ガウス分布に従うことを仮定するのが一般的であった.このとき,各フレームにおける複素ガウス分布の分散行列(半正定値行列)を少数の基底分散行列(半正定値行列)の錐結合で表現するのがLog-Determinantダイバージェンスに基づくPSDTF (LD-PSDTF) であり,半正定値行列を対角行列(対角成分はパワースペクトル密度なので非負ベクトル)に限定すると板倉・斎藤ダイバージェンスに基づくNMF (IS-NMF) に帰着する.しかし,実際の音響信号は非ガウス性(多くの場合優ガウス性)を持つため,ガウス分布より裾の重い確率分布を尤度関数に用いることが望ましい.本研究では,複素t分布(特殊形として複素ガウス分布と複素コーシー分布を含む)を尤度関数としたt-PSDTFを定式化し,基底とアクティベーションを同時に最尤推定するための効率的な乗法更新アルゴリズムを導出する.実験の結果,高品質な音源分離ができることを確かめた.

T-21: Robustification of Learning Algorithms using Hinge-loss

発表者:Takafumi Kanamori(Nagoya Univ.)・Shuhei Fujiwara(TopGate)・Akiko Takeda(Univ. of Tokyo)

概要:We propose a unified formation of robust learning methods for classification and regression problems. In the learning methods, the hinge loss is used with outlier indicators in order to detect outliers in observed data. To analyze the robustness property, we evaluate the breakdown point of the learning methods in the situation that the outlier ratio is not necessarily small. Although the minimization of the hinge loss with outlier indicators is a non-convex optimization problem, we prove that any local optimal solution of our learning algorithm satisfies the robustness property. The theoretical findings are confirmed in numerical experiments.

T-23: L1正則化付きフルスパン対数線形モデルとその性能

発表者:高畠一哉・赤穂昭太郎(産総研)

概要:離散多変数確率モデルでは十分多くの基底を用いればいかなる分布でも表すことができる.これをフルスパンモデルと呼ぶ.フルスパンモデルにL1正則化項を導入すると1回のパラメータ学習により必要な基底の取りこぼしなく構造学習+パラメータ学習を行うことができるので便利である.フルスパンモデルの学習では計算量爆発が心配であるが,フルスパン対数線形モデルの場合はある工夫により学習を高速に行うことができる.本論文ではその高速計算法と数値実験による性能評価を示す.

T-25: 予算制約つき多腕バンディット問題に対するKL-UCBの拡張戦略

発表者:渡辺 僚・中村篤祥・工藤峰一(北大)

概要:各アクションの選択に対しコストが確率的に発生し,与えられた予算内で累積報酬を最大化することを目標とする予算付き多腕バンディット問題において,古典的多腕バンディット問題に対する漸近最適戦略であるKL-UCBを拡張したKL-UCB-IE戦略を提案.理論と計算機シミュレーションの両面からリグレット分析を行った結果を示す.

T-35: 重複コミュニティ発見のための Modularity 分割の擬似クリーク拡張

発表者:幸若完壮・工藤峰一(北大)

概要:ソーシャルネットワークにおけるコミュニティ分割の基準としてModularity基準が用いられてきた . Modularity基準はコミュニティ数が未知の場合でも利用できるが , ソーシャルネットワークにおいて重要なコミュニティの重複を発見できない . この問題に対してModularity基準を拡張した手法が提案されてきたが, コミュニティ数を決める必要があった. そこで, 本論では Modularityを新たに擬似クリークへと拡張することで , コミュニティ数が未知な場合に対応する. 提案モデルは既存の手法と比較してスター構造の重複の発見に有効で, Modularity基準の最適分割を与えることができる. またこの拡張はModularity基準に限らず, 他の分割基準にも適用できる.

ディスカッション・トラック

D-01: MDL規準に基づく階層的クラスタンリングを用いた緑内障進行パターンに関する知識発見

発表者:真矢滋(東大)・森野佳生(東大)・村田博史(東大)・朝岡亮(東大)・山西健司(東大)

概要:視野が欠損する疾患である緑内障の進行パターンに関するクラスタリング手法を提案する。緑内障では視野上の進行具合が直線で分割される直積構造を持つ場合が多い。そのため直積構造を考慮したMDL規準のもと動的計画法を用いてクラスタ数および直積構造を決定する手法を提案する。実際の患者データを用いた実験では、臨床的な知見と合致する進行パターンが得られ、また既存手法と比較して緑内障の進行予測の精度が向上した。

D-03: スパース正則化に対するDCアルゴリズム

発表者:後藤 順哉(中央大学)・武田 朗子(東京大学)・東野 克哉(東京大学)

概要:本研究ではスパース性を導く非凸正則化項と,それに対応する非凸計画問題を反復的に凸計画近似して解くアルゴリズムを提案する.アルゴリズムはL1正則化に対する近接勾配法であるISTAを特殊ケースとして含むものであり,停留点への大域的収束性,線形収束性が保証される.数値実験では,提案手法がISTAと同程度の計算コストで,所望のスパース性を持つ二乗誤差の小さな解を出力できることを示す.

D-05: 高階結合正則化を用いた教師あり学習

発表者:竹内 孝(NTT)・河原 吉伸(大阪大学)・岩田 具治(NTT)

概要:教師あり学習問題では、特徴量のグループ(例えば、同じ意味を持つ単語、同じジャンルの音楽など)が、事前知識として得られる場合がある。グループに所属する特徴量が同じ働きをするならば、これらの特徴量のパラメタは同一の値を持つと考えられる。本発表では、特徴量のグループを用いてパラメタの推定量を平滑化する高階結合正則化と、正則化項の劣モジュラ性を利用し正則化項を最小化するO(nlogn)の近接法を提案する。

D-06: 欠損ありオミクスデータのための疎偏相関行列推定法

発表者:宇田新介(九州大学生体防御医学研究所)

概要:高次元,かつ,欠損のあるオミクスデータから疎偏相関行列を推定する方法を開発した.欠損値の推定はデータ行列の低ランク近似に基づき,疎偏相関行列の推定はL1正則化条件付き回帰に基づくが,両者はひとつのモデルによって推定される.生物学で用いられるデータベースからは分子種間の相互作用ネットワークに関する事前知識が得られることがあり,超パラメータに組み込むことで性能が向上することをトイモデルで確認した.

D-07: ロバストなスパース回帰 バッチおよびオンライン学習

発表者:川島 孝行(総合研究大学院大学)・藤澤 洋徳(統計数理研究所)

概要:回帰を行うときに,我々が当てたいのは条件付分布である.最尤推定では,特別に条件付き分布からなる,KLダイバージェンスを考えなくてよい.しかし,たとえば,ロバスト性をもつダイバージェンスを考えると,そうではない.そこで,我々は回帰のためのγダイバージェンスを用い,スパース正則化の枠組みを導入し,ロバストなスパース回帰を可能とした.また,大規模データに対応するためのオンライン学習も可能とした.

D-09: 動的ボルツマンマシン

発表者:恐神貴行(IBM東京基礎研究所)・大塚誠(IBM東京基礎研究所)

概要:各時点に対応する層をもつボルツマンマシンを考え、層数無限の極限として動的ボルツマンマシンを導出する。所与の時系列データの尤度最大化という目的関数から導出される動的ボルツマンマシンの学習則が、スパイク時間依存可塑性(STDP)の特徴を有することを示す。本発表はJST, CRESTプロジェクトの成果で、[1]に基づく。 [1] www.nature.com/articles/srep14149

D-10: 相対評価に基づく協調ランキング問題

発表者:森富賢一郎(九州大学)・畑埜晃平(九州大学)・瀧本英二(九州大学)

概要:協調フィルタリング問題において,2商品を比較しよりどちらが好きか,という相対評価情報は,ユーザ毎のバイアスの影響が取り除かれ,絶対評価より頑健と考えられる.本研究では相対評価情報の一部が与えられたとき,各ユーザが潜在的に持つ商品上のランキングを予測する問題を考える.この問題に対して,ランク統合問題に用いられるアルゴリズムを使用しランキングの汎化誤差の上界を与えた.

D-11: 低ランク分解を用いたノンパラメトリックテンソル回帰

発表者:今泉允聡(東京大学)・林浩平(情報学研究所)

概要:ノンパラメトリック回帰はモデルの表現力を上げることで漸近的な予測精度を上げる事が出来るが、共変量がテンソルで与えられる場合、その高次元性ゆえ推定量の収束が遅くなる。本研究はテンソル空間上の関数を分解することで、新しいノンパラメトリック回帰モデルを考案し、またそのベイズ及び非ベイズ推定量を提案する。発表では、本研究の提案したモデルが推定量の収束を大幅に早めることを理論的・実験的に示す。

D-13: Local Kernel Dimensional Reduction in Approximate Bayesian Computation

発表者:Jin Zhou(SOKENDAI)・Kenji Fukumizu(ISM)

概要:We propose a Local Gradient Kernel Dimension Reduction method, which constructs sufficient summary statistics of low dimensional in an automatic manner.

D-15: 特徴ベース非負値行列分解に基づく交通リスクマイニング

発表者:守屋航一(東京大学情報理工学系研究科)・松島慎(東京大学情報理工学系研究科)・山西健司(東京大学情報理工学系研究科)

概要:ヘテロな交通データから道路スポットの危険度を予測する問題を考える。本研究では、特徴ベース非負値行列分解の新しい手法を提案し、これを用いて危険箇所のクラスタリングと事故件数の予測を行うフレームワークを提案する。提案アルゴリズムは従来の行列分解型アルゴリズムに比べ高速かつ高精度な予測を実現することを実験により示す。また、実際の交通データを用いて、危険道路の特定が行えたことを示す。

D-17: 類似度に基づくクラスタリング

発表者:竹岡邦紘(関西学院大学理工学部)・岡留剛(関西学院大学)

概要:データ間の類似度が与えられるとき,類似度を用いたクラスタリング手法を提案する。既存手法にはスペクトラルクラスタリングがある。しかしながら,適切なクラス数を先に決めておく必要がある。一般にクラスタリングを行う際,クラス数がわかっている場合は多くない。クラス数が未知の場合でも利用できるクラスタリング手法が求められている。本研究ではクラス数を決定しつつクラスタリングする手法を提示する。

D-19: 活性値情報のグループ化とランク学習による活性化合物予測

発表者:鈴木翔吾(東京工業大学大学院情報理工学研究科計算工学専攻)・大上雅史(東京工業大学大学院情報理工学研究科計算工学専攻)・秋山泰(東京工業大学大学院情報理工学研究科計算工学専攻)

概要:新薬開発の支援手法に,化合物活性情報を用いた機械学習による化合物スクリーニングがある.従来は分類や回帰として扱われてきたが,近年ランク学習による手法が提案された.先行研究では活性値をそのままランク学習に用いていたが,活性値に潜在する実験誤差により予測精度の悪化が予想される.本研究では,活性値によって化合物をグループ化し,細かいランクではなくグループの評価値を用いることで誤差の問題の解決を試みた.

D-21: ニュースレコメンドにおける分散表現を用いた重複記事排除

発表者:大倉 俊平(ヤフー株式会社)・田頭 幸浩(ヤフー株式会社)・田島 玲(ヤフー株式会社)

概要:ニュースレコメンドにおいて、情報の重複を避けて提示する情報量を増やすことは、重要な課題の一つである。本研究では、NNベースの簡易な重複排除手法を提案し、Yahoo! JAPANのトップページに適用した際の知見を紹介する。

D-23: ネットワーク中心性を用いたテンポラルネットワークの異常検知

発表者:要名本義太郎(東京大学 大学院情報理工学系研究科)・森野佳生(東京大学 大学院情報理工学系研究科)・山西健司(東京大学 大学院情報理工学系研究科)

概要:テンポラルネットワークはその重要性から近年様々な研究が行われてきた.テン ポラルネットワークの異常検知も同様であるが,異常検知の文脈ではネットワー ク科学で重要とされているネットワーク中心性という指標の効果・役割について 十分に議論されてこなかった.本発表では複数のネットワーク中心性を組み込ん だテンポラルネットワークの異常検知手法を提案し,人工データによる既存手法 との比較結果について紹介する.

D-27: fMRIデータに対するシンプルで強い仮定を必要としない脳活動領域の特定法

発表者:寺田 吉壱(国立研究開発法人 情報通信研究機構 脳情報通信融合研究センター)

概要:fMRIデータから有意な脳活動領域を特定する際には,血流動態反応関数 (HRF) に対する統計的推測がその中核をなす.代表的なfMRIデータ解析ソフトに組み込まれている既存手法は,正規性やドリフト項の除去可能性等の強い仮定を必要としている.本発表では,シンプルなHRFの推定量が弱い仮定の下で一致生と漸近正規性をもつことを示し,有意な脳活動領域を特定するための新しい検定統計量を提案する.

D-29: i-vectorの識別手法にBaggingを加えた話者識別法

発表者:園田祥平(早稲田大学)・井上真郷(早稲田大学)

概要:近年、話者識別法の多くは話者の特徴を表すi-vectorを経由して行われる。各発話のi-vectorは超球上に分布するという特徴があるため、cos類似度を利用した識別手法により話者の推定が可能になる。更なる精度の上昇の為に近年、機械学習の分野で力を発揮している弱学習器を話者識別法に加えた手法、具体的にはアンサンブル学習の1つであるBaggingを加えたアプローチを提案し、その有効性を検証する。

D-32: オンライン広告におけるExtreme Multi-label分類手法の応用

発表者:田頭幸浩(ヤフー株式会社)

概要:Extreme multi-label分類問題は、ラベルの種類数が数十万以上と、極端に多い場合の分類問題である。本研究では、Yahoo! JAPANのオンライン広告の実データに対して、この分類手法を適用した結果を報告する。

D-35: Regret Analysis for Continuum-Armed Dueling Bandit Problems

発表者:熊谷亘(神奈川大学)

概要:本発表では連続的な空間上の dueling bandit 問題を扱う.stochastic mirror descent に基づいたアルゴリズムを提案し,そのアルゴリズムはある強凸性の条件のもとで劣線形の regret bound を持つことを示す.さらに,その regret boundは最適であると予想される理由を説明する.

D-36: Chainer: 深層学習のための次世代オープンソースフレームワーク

発表者:得居誠也(株式会社Preferred Networks)・大野健太(株式会社Preferred Networks)・比戸将平(Preferred Networks America, Inc.)・Justin Clayton(Preferred Networks America, Inc.)

概要:深層学習の研究開発において、ニューラルネットのフレームワークが重要な役割を担っている。最近ではより動的で複雑なネットワークが多く提案されており、研究開発においてはこれらを素早く実装、実験することが肝要である。そこで我々は、ニューラルネットをPythonプログラムとして直感的に記述できるフレームワークChainerを開発している。本発表ではその基本概念を解説し、効果と課題、具体的な記述例を紹介する。

D-38: ガウス核を用いた柔軟な超曲面あてはめに向けて

発表者:藤木淳(福岡大学)・赤穂昭太郎(産総研)

概要:点集合に超曲面をあてはめる際、より高次元の空間に写像して超平面をあてはめる手法がしばしば用いられる。この写像を特徴写像と考えてカーネル化した場合、カーネル主成分分析と同じ定式化において最小固有値に対応する固有ベクトルを選ぶため、カーネル劣成分分析を行なっている。しかし、カーネル劣成分分析ではリプレゼンタ定理は成立せず、特徴空間の次元が高いと解の挙動が不安定になる。この点について議論をしたい。

D-40: 特徴と標本の同時セーフスクリーニング

発表者:柴垣篤志(名古屋工業大学)・小川晃平(名古屋工業大学)・畑埜晃平(九州大学)・竹内一郎(名古屋工業大学)

概要:セーフスクリーニングは学習する以前に学習に必要のない特徴または標本を特定する手法であり, L1正則化学習における特徴のスクリーニング, SVMにおける標本のスクリーニングについて多くの研究がなされている. 本研究では, L1正則化ヒンジ損失最小化問題において特徴と標本のセーフスクリーニングを同時に考えることによって互いの相乗効果により構築される, 片方のみよりも強いスクリーニングルールを提案する.

D-42: ヒストグラム密度推定法を組み込んだ混合メンバシップモデルの提案

発表者:金秀明(NTT)・澤田宏(NTT)

概要:混合メンバシップモデルではLDAのように離散値の観測データだけでなく、評価スコアや単語の出現時期など連続値のデータを扱うモデルも提案されている。後者はしかし効率的なパラメータ推定を担保するため、クラスタを特徴付ける観測データの分布は単純な正規分布などに限定され、クラスタ形成に大きな制限を抱えていた。本研究では、観測データの分布をヒストグラム=区分定常な密度分布で表現することで、その制限を克服する。

D-44: オンライン二分探索木問題に対する更新コスト付きリグレット解析について

発表者:松川 理拓(九州大学大学院システム情報科学府)・山内 由紀子(九州大学大学院システム情報科学研究院)・来嶋 秀治(九州大学大学院システム情報科学研究院)・山下 雅史(九州大学大学院システム情報科学研究院)

概要:本研究では,動的な二分探索木の更新コスト付きのリグレット解析を行う.更新コスト付きのリグレット解析に関し,KalaiとVempala(2005)はT回の探索で期待値O(\sqrt{T})を達成する遅延更新アルゴリズムを与えているが, Tの値が未知の場合にはこのリグレットを達成できない.本発表ではHannan(1957)の手法を組み合わせたアルゴリズムを提案し,その解析を行う.

D-46: 時系列データからの畳み込み非負値行列因子分解の構造推定

発表者:鈴木 惇(東京大学)・山西 健司(東京大学)

概要:時系列データの特徴を抽出する手法の一つである畳み込み非負値行列因子分解は,その構造パラメータ(基底の時間幅や基底数)の決定法が問題だが,モデルが潜在変数を含み非正則であるため正則モデルに対する手法を適用できないという困難さがある.本研究は,潜在変数の完全変数化を伴う,記述長最小原理に基づく構造パラメータ決定手法を提案する.また数値実験で提案手法の良好なハイパーパラメータ推定精度を示す.

D-48: 制約付き固有値問題を用いた半教師付きスペクトラルクラスタリングによる画像領域分割

発表者:上田隼也(筑波大学大学院システム情報工学研究科(博士前期課程)コンピュータサイエンス専攻)・櫻井鉄也(筑波大学システム情報系)・保國惠一(筑波大学システム情報系)

概要:スペクトラルクラスタリングと呼ばれるクラスタリング手法がある。この手法はグラフ分割問題を固有値問題に帰着させることで、対象とするデータを固有ベクトル空間に射影してクラスタリングを行う。提案手法は、固有ベクトルの要素に事前知識に基づく制約条件を課した固有値問題を解くことを可能にする。それにより画像領域分割に対して事前知識を活用した半教師付き学習を実現する。

D-50: 差分プライバシを保証した外れ値分析アルゴリズムの高速化

発表者:岡田莉奈(筑波大学)・福地一斗(筑波大学)・佐久間淳(筑波大学/JST CREST)

概要:外れ値検出におけるプライバシ保護は重要である。我々がこれまでに提案した差分プライバシを保証した外れ値の個数の検出アルゴリズムは、探索量がO(2^N)(Nはレコード数)であり、実用的な計算時間で結果を得ることが出来ない。本研究ではこの既存アルゴリズムと同様の出力とプライバシ保証を得ることのできる探索量がO(N^d)(dはレコードの属性数)となるアルゴリズムを提案し、実験では計算時間を比較する。

D-52: fNIRSデータからの脳の機能的結合のグレンジャー因果解析

発表者:安部斉志(筑波大学)・佐久間淳(筑波大学/JST CREST)・滝謙一(同志社大学 生命医科学研究科)・廣安知之(同志社大学 生命医科学部)

概要:時系列データの分析において,因果関係を分析することは重要な問題の1つである.近赤外脳機能計測法(fNIRS)は,脳血流量の相対的変化を多点で観測する手法として知られている.我々は,fNIRSデータから得られた時系列データに対して因果予測を行い,脳の機能的結合を解析することを目標とする.本稿では,被験者ごとの因果の違いを考慮したマルチタスクな目的関数設計とそのための予備実験について紹介する.

D-54: Large Margin 仮定における多重仮説検定の差分プライバシ

発表者:柿崎和也(筑波大学システム情報工学研究科)・佐久間淳(筑波大学システム情報工学研究科/JST CREST)

概要:多重仮説検定において検定統計量を元に個人に関する情報が推測される可能性がある.プライバシ保護指標である差分プライバシは,仮説数の増加に伴い大きなノイズが必要となり,多重仮説検定とは相性が悪い.本発表では,p値が小さな仮説数が全仮説数に対して少数であるという仮定を設け,興味があるそのような仮説の検定結果にだけ着目することで,小さなノイズで差分プライバシを保証しながら検定結果を得る手法を考案する.

D-56: kNNを用いたカーネルベイズの計算量削減法の検討

発表者:苗村智行(電気通信大学)・都築俊介(電気通信大学)・西山悠(電気通信大学)

概要:カーネルベイズは,カーネル法を用いてノンパラメトリックにベイズ推論を行う手法である.しかしサンプル数xサンプル数の行列の積や逆行列計算を必要とする.本研究では,カーネルベイズとk近傍法を組み合わせた計算量削減法を提案する.特に,kernel ABCにも適用されている条件付き確率埋め込みにkNN を組み合わせた結果を報告する.カーネルベイズ則(KBR-kNN)や状態空間モデルへの適用も検討する.

D-58: 疾患リスク公開による遺伝情報の推定リスクの評価

発表者:草野光亮(筑波大学)・竹内一郎(名古屋工業大学)・山田芳司(三重大学)・佐久間淳(筑波大学 / JST CREST)

概要:遺伝情報および背景情報から特定の疾患の罹患リスクが予測できるようになりつつある。この予測リスクを公開した場合、秘密情報であるべき遺伝情報が推測される可能性がある。背景知識を持つ攻撃者による秘密情報の推測のリスクについて、列挙による推測と近似的な確率推論の観点から考察する。

D-60: クラウドソーシングワーカの自己申告属性を用いた回答統合法

発表者:馬場 雪乃(京都大学)・清水 伸幸(Yahoo! JAPAN研究所)・藤田 澄男(Yahoo! JAPAN研究所)

概要:クラウドソーシングで人間の判断を収集する際に、回答精度向上のために、同じ設問に対する複数人の回答を統合する方法が広く用いられている。 本研究では、 回答者の属性も用いて回答者の能力を推定することで、回答統合の精度向上を目指す。回答者に自身の属性を申告させる際、嘘をつく回答者が存在する。属性申告の正しさも考慮し回答統合に利用する手法を提案する。

D-62: 時系列の周辺分布からのEM型モデル推定

発表者:小山雅典(京都大学)・前田新一(京都大学)

概要:生物学などにおける時系列f(t)のデータは経験周辺分布p(x, t_k)のような形をとることがよくあり.時系列の軌道に関する直接的情報が欠測している.このようなデータからのモデル推定にはモーメントマッチングを使う手法があるが,手続きが複雑な上モデル族によって計算法が変わってくる.我々は重点サンプリングとEMアルゴリズムのシンプルな融合によってこのタイプの推定問題が解けることを示す.

D-64: タンパク質構造予測のための表現学習と深層学習

発表者:椿真史(NAIST)・新保仁(NAIST)・松本裕治(NAIST)

概要:タンパク質は、20種類のアミノ酸からなる任意長の直鎖、つまり配列として表現できる。この配列が持つ様々な構造を機械学習を用いて予測する場合、タンパク質を特徴ベクトル空間でどのように表現し、その構造をどのように学習するのかという2つの問題が存在する。本発表では、配列と構造を扱うという観点から、近年の自然言語処理における表現学習と深層学習のアプローチを用いて、タンパク質構造予測を行う手法を提案する。

D-66: Community Learning:蒸留を用いた分散深層学習と化合物活性予測マルチタスク学習への応用

発表者:大野健太(株式会社Preferred Networks)・岡野原大輔(株式会社Preferred Networks)・大田信行(Preferred Networks America, Inc.)

概要:一般的な分散深層学習は大規模なNNのパラメータを交換するため通信がボトルネックとなる。本発表では深いNNの学習技術の蒸留を応用した分散深層学習を提案する。提案手法はパラメータの代わりに予測結果を交換することで通信量削減を目指す。本手法をChainerを用いてTSUBAME上で実装し、化合物活性予測マルチタスク学習で8台24GPUでのスケーラビリティとAUC向上を確認した。

D-68: 切断正規分布に基づく非負値行列分解

発表者:白川真一(筑波大学)・鈴木創(青山学院大学)・大原剛三(青山学院大学)

概要:非負値行列分解(NMF)は非負値行列を低ランク近似する方法であり,様々なデータの解析に適用可能である.一般的な二乗誤差に基づくNMFは,観測データの確率分布に正規分布を仮定していると解釈できるが,負値領域にも確率密度の存在を許しているという点で適切ではないと考えられる.本発表では,確率変数の定義域が有限な切断正規分布に基づくNFMアルゴリズムを提案し,数値実験を通して有効性の検証を行う.

D-70: 無限木状態隠れMarkovモデル

発表者:持橋大地(統計数理研究所)

概要:隠れMarkovモデルや状態数を自動推定する無限隠れMarkovモデルは有用なモデルであるが、離散的な状態がフラットだという問題を持っている。本発表では、木構造Stick-breaking過程(TSSBP)をさらに階層化することにより、可変個の状態がさらに可変の深さまで木構造に従って構造化される無限木状態隠れMarkovモデルを提案する。名詞や動詞、動作の階層を学習する可能性について議論したい。

D-72: 統計調査の約600分類の符号付与システムについて

発表者:床裕佳子(独立行政法人統計センター)・下野寿之(独立行政法人統計センター)・和田かず美(独立行政法人統計センター)・坂下佳一郎(独立行政法人統計センター)

概要:統計処理を目的として、各世帯が手書きで記入した家計簿の品目名を約600の符号に分類するシステムのプロトタイプを開発した。現在は、専門的な知識を持った職員が、品目名から対応する符号を判断しているが、本研究では、形態素解析と確率計算を組み合わせた単純な仕組みで、高精度かつ処理速度の速いシステムの開発を目指す。そのシステムの概要および検証結果について紹介する。

D-74: 介護レセプトデータに対する横断的特徴選択による介護サービ スの評価

発表者:中里 佳央(筑波大学情報学群)・佐久間淳(筑波大学システム情報工学研究科/JST CREST)・川村顕(筑波大学医学医療系ヘルスサービスリサーチ分野)・田宮菜奈子(筑波大学医学医療系ヘルスサービスリサーチ分野)

概要:介護レセプトデータは毎月の介護サービスの利用情報や要介護者の情報を記録した欠損値を含む時系列データである。このデータからどのようなサービスが要介護度の推移に影響を与えるのかを評価することが目標である。そのために欠損値に対応し、時系列間の関連性を考慮するためにグループラッソ正則化項を用い、特徴量間の関連性を考慮するためにトレースノルム正則化項を用いた目的関数を用いて学習する手法を用いる。

D-78: 混合ガウシアングラフィカルモデルの学習手法と交通状態補間

発表者:鈴木 惇平(東北大学大学院情報科学研究科)・原 祐輔(東北大学大学院情報科学研究科)・桑原雅夫(東北大学大学院情報科学研究科)

概要:本研究は,多次元正規分布によるガウシアングラフィカルモデル(GGM) の共分散構造推定に用いられるGraphical Lassoをベースに,より柔軟な分布が表現可能な混合GGMの共分散構造と混合比の学習手法を提案する.また,本モデルを用いて,道路ネットワーク上で部分的に観測されたリンク旅行速度データによる未観測リンク速度の補間結果を報告し,混合GGMの補間精度を検証する.

D-83: Latent Synonym Topic Models

発表者:Weihua Hu(The University of Tokyo)・Motoki Sato(Nagoya Inst. of Technology)・Hideki Mima(The University of Tokyo)・Jun’ichi Tsujii(AIST)

概要:Topic models such as LDA have been successful in discovering a wide range of topics across documents. Yet, they may well be sensitive to superficial word expressions rather than words’ inherent similarity. Recently, neural word embedding such as word2vec has gotten much attention for its clustering effect on words with similar syntax and semantics. Inspired by this, we propose Latent Synonym Topic Models, in which we use pre-trained word embedding in hope to smoothen the diverse word expressions in texts without sacrificing the essential information about topics. In the proposed model, we redefine a topic as a distribution over “synonyms,” which we introduce as another latent variables in order to capture the essential syntactic and semantic similarity of words. In the presentation, we hope to show the model’s effectiveness on topic discovering, document clustering, and classification tasks.

D-84: Barron and Cover理論の教師付き学習への拡張及びlassoへの応用

発表者:川喜田雅則(九州大学)・竹内純一(九州大学)

概要:Barron and Cover理論によるリスク評価を連続パラメータ空間の場合に,教師付き学習に拡張するには本質的な難しさがあった.我々はこの問題をかなりの程度解決し,教師付き学習への拡張の道筋を作った.さらにそれをlassoに適用してこれまでになり精密なリスク上界を得た.

D-86: Tensor SOMによるe-mailデータのトピック・ロールの同時可視化

発表者:波田野創(九州工業大学大学院生命体工学専攻)・古川徹生(九州工業大学大学院生命体工学専攻)

概要:Tensor SOMは自己組織化マップの拡張であり,テンソルデータからモードごとの潜在変数を推定する.本研究ではe-mailデータをメッセージ,単語,送信者,受信者の4モードテンソルデータとみなし,Tensor SOMでモデル化し可視化を行った.

D-88: Web上の消費行動からのオフラインイベントモデリング

発表者:小山田創哲(リクルートテクノロジーズ)・小山雅典(京都大学)

概要:Web上の消費行動は,ユーザが現在直面しているオフラインイベントに大きく影響を受ける.本研究の目的は,そうしたオフラインイベントをマーケティングに活用すること見据え,部分的に観測されたイベント系列から,その真の系列をモデリングし,推定することである.イベント系列の連続時間マルコフ過程モデルに対してパラメータ推定を行い,数値実験によって評価を行った.

D-90: 適格度の履歴を用いたNatural Actor-Critic法の解析と頑健な学習法の提案

発表者:岩城諒(大阪大学大学院工学研究科)・横山裕樹(大阪大学大学院工学研究科)・浅田稔(大阪大学大学院工学研究科)

概要:本研究では,適格度の履歴を用いた自然勾配Actor-Critic法の学習則を解析し,行動価値関数の近似パラメータは,Criticによる状態価値推定の精度によらず,収益の期待値の勾配に従って学習可能であることを示す.次に,行動価値近似パラメータの更新の分散を明示的に最小化するCriticの学習則を提案する.Acrobotの制御に提案手法を適用し,既存手法よりも頑健に学習できることを示す.

D-92: Predictive Control Problem Design Using Machine Learning Techniques

発表者:Wemer M. Wee(NEC Corporation)・Riki Eto(NEC Corporation)・Yoshio Kameda(NEC Corporation)

概要:We propose the use of machine learning for the design of the objective in predictive control. Effects of different learning techniques on the controllability in dynamical systems are discussed.

D-94: 双対分解を用いた無限潜在特徴関係モデルによる関係データの属性予測

発表者:西出飛翔(神戸大学)・江口浩二(神戸大学)

概要:関係データのための潜在変数モデルがリンク予測などの問題に対して有効であり、その代表的なものの一つが、潜在特徴関係モデル(LFRM)やそのマージン最大化を導入した拡張(MedLFRM)である。本発表では、複数の属性が与えられた関係データから潜在特徴をモデル化するため、MedLFRMに双対分解を導入した新たなモデルを提案する。提案モデルにより、関係データの未知の属性を予測することができる。

D-96: 視線運動からの商品カタログ閲覧状態の推定

発表者:石川惠理奈(京都大学)・川嶋宏彰(京都大学)・松山隆司(京都大学)

概要:オンラインショッピングなどディスプレイに提示されたカタログを閲覧して商品を選ぶという状況を想定する.このような状況でカタログ閲覧者の意思決定過程を理解し支援するため,閲覧者の視線から「どのように商品を見比べているか」という閲覧状態を推定する枠組みを提案する.この枠組みでは,カタログの意味的・空間的構造を用いて視線を特徴化し,この視線特徴の系列と閲覧状態の確率的関係をセミマルコフモデルで表す.