データ生成過程の学習: 因果推論・特徴選択へのアプローチ
日時: 11/4 (木) 9:30-12:10オーガナイザー: 清水昌平 (大阪大学) [趣旨説明]
反実仮想モデルを用いた統計的因果推論について
星野崇宏 (名古屋大学 経済学研究科)本発表では、実験や研究者による独立変数操作が行えない研究における統計的因果推論の枠組みを、欠測データが存在する反実仮想モデルを用いて説明する。因果効果の推定は真のフルモデル構造が分かっている場合にはパラメトリックモデルを利用すればよいが、一般にはフルモデルは未知である。一方、統計的因果推論の問題構造では関連する変数が多数にわたり、次元の呪いが生じるため、ノンパラメトリック推定も有効ではない。このような状況で近年よく利用されるセミパラメトリック推定法、具体的には傾向スコアなどの解析法について紹介し、利用する変数の選択基準についてのこれまでの研究動向を示す。
構造方程式モデルによるデータ生成過程の学習, 特に非ガウス性の利用
清水昌平 (大阪大学 産業科学研究所) [資料]データ生成過程は、観測データがどのようなプロセス(過程)を経て生成されるのかを表す。構造方程式モデルはデータ生成過程のモデルであり、内生変数、外生変数、変数の決定関係を表す関数、外生変数の分布の4つから成る。内生変数と外生変数にはそれぞれ、直接測定される観測変数と直接測定されない潜在変数とがある。観測変数の分布は、決定関係を表す関数と外生変数の分布から決まり、そこからの標本を用いて推測を行う。構造方程式モデルは、因果に関する仮定や因果に関する問いを定式化するのに便利で広く用いられており、因果推論の土台となっている。中心的課題の1つは、データ生成過程が未知の時に、どのような仮定の下で、どうやると、どの程度データ生成過程を推定できるかを理論的に明らかにすることである。このトークでは、連続変数の場合を概観する。特に、データの非ガウス性の利用に関する話題を報告する。
劣モジュラ性を用いたデータ生成過程の学習
河原吉伸 (大阪大学 産業科学研究所) [資料]データ生成過程の推定を目的とした特徴選択や因果推論などにおいては、予測モデルの獲得ではなく、データを生成する機構そのものの同定が目的であるため、大域的な最適性を持った解の探索が応用的に重要となる。しかし一般には、組合せ爆発のために、現実的な時間内での探索は非現実的になってしまう場合も多い。本発表では、近年機械学習分野でも注目が集まる劣モジュラ性と呼ばれる離散構造を利用する事により、そのような解の探索を効率的に行うための最近の研究について紹介する。
スパース正則化学習の学習性能、特にスパース性と汎化誤差の関係について
鈴木大慈 (東京大学 情報理工学系研究科) [資料]本発表では、スパース正則化学習の解のスパースさと汎化誤差の関係について、特にGroup Lassoを無限次元に拡張したMultiple Kernel Learning (MKL) において 理論的に解析した結果を述べる。近年、スパース学習は最も重要な研究対象の一つとなっているが、解がスパースであることは汎化誤差の良さを必ずしも導かない。実際、MKLは画像認識の分野などで成功を収めているが、オリジナルのL1正則化を用いるよりもL1とL2の中間的な正則化を用いたものが多くの問題で高い精度を出すことが実験的に報告されている。そこで、L1とL2の中間的な正則化としてelasticnet型の正則化やLpノルムを考えた場合に、問題の条件に応じてそれら中間的な正則化がどのように汎化性能に影響を与えるかを理論的に考察する。
多端子情報理論の最新事情
日時: 11/5 (金) 9:30-12:10オーガナイザー: 木村昭悟(NTT) [趣旨説明]
多端子情報源符号化の現状と課題
葛岡成晃 (和歌山大学 システム工学部) [資料]近年のネットワーク技術の発展により、多数の送受信者が関わる情報通信システムの設計・解析の指針を与える基礎理論として、多端子情報理論の重要性が増してきている。多端子情報理論においては、長年の研究で多くの重要な成果が得られている一方で、あまり研究が進展していない基本的未解決問題もいくつか残されている。本発表では、多端子情報理論の重要な一分野である多端子情報源符号化の研究について概観し、その現状と課題について解説する。まず、多端子情報源符号化の研究における基本的な問題意識と数理モデルについて解説する。そして、これまでの研究で得られた重要な成果を紹介するとともに、未解決問題に対する最近の取り組みのを紹介する。
圧縮センシングの理論とその展開
和田山正 (名古屋工業大学 工学研究科) [資料]近年、新世代のサンプリング理論として圧縮センシングの分野が注目されている。疎ベクトルに対応するランダム線形観測ベクトルから、L1最適化などの手法を利用することで元の疎ベクトルを再現することが圧縮センシングの主問題である。センシング行列の制約等長性の概念とランダム行列の固有値分布の理論に基づいて、Candes, Taoらにより導かれた完全再現のための十分条件は、圧縮センシングの理論的発展の契機となった。本講演では、圧縮センシングの問題設定、主要な理論的結果を紹介するとともに、余裕があれば低ランク行列近似問題など圧縮センシングに関する最近の研究動向についても概観してみたい。
補助情報を用いた情報源符号化
松嶋敏泰 (早稲田大学 基幹理工学部) [資料]多端子情報理論の典型的問題設定として、補助情報を用いた情報源符号化の問題がある。この問題において情報源の確率構造が未知の場合の数理モデルは、学習理論の基本問題のモデルにもなっていることが知られている。本講演では、まず、情報理論と学習理論それぞれのモデルの特徴を挙げその相違点を考えてみる。また、両方の共通的評価基準、たとえば予測精度からの一般的性能評価や、最適性を保証した元での効率的アルゴリズム等についても論じる。
情報理論的セキュリティと秘密増幅定理
松本隆太郎 (東京工業大学 理工学研究科) [資料]従来のセキュリティにおける情報の秘匿性は、特定の問題の計算が既知のアルゴリズムで困難であることで保証されているが、それに対して情報理論的セキュリティは、秘密に保ちたい情報と敵の持つ情報が統計的に独立であることで秘匿性を保証しているので、新たなアルゴリズムの発見や量子コンピュータの実現によって秘匿性の根拠が失われない長所があるため、近年活発に研究されている。情報理論的セキュリティの研究の大半において、秘匿性の基準としていわゆる弱い安全性規範が用いられているが、これは全く秘匿性を保証しない不適切な規範であり、いわゆる強い安全性規範を代わりに用いるべきである。強い安全性規範を保証するための代表的手法が秘密増幅定理であり、秘密増幅定理を用いて盗聴通信路、秘密メッセージを含む放送型通信路、鍵共有問題などの代表的問題について、強い安全性規範を保証できる方式の存在が証明されている。本発表では秘密増幅定理とその重要な応用の幾つかを紹介する。
理論統計学の風景から
日時: 11/5 (金) 13:30-15:30オーガナイザー: 小林景(統計数理研究所) [趣旨説明]
ロバスト推測の基礎とダイバージェンス型メソッドへの発展
藤澤洋徳(統計数理研究所) [資料]外れ値が存在するとき、通常の最尤法などは、その外れ値に影響されて、おかしな推測結果をもたらすことがある。その問題点を克服することを目的とした方法としてロバスト推測がある。本報告では、最初に、ロバスト推測の基礎について簡単に触れる。その後、ロバスト推測の方法の一つである重み付きスコア法から、ある種のダイバージェンスが自然に導かれることを示し、それを用いたロバスト推測の性質について説明する。
マルコフ基底と分割表解析への応用について
原尚幸(東京大学 技術経営戦略学) [資料]Diaconis and Sturmfels によるマルコフ基底を用いた分割表モデルの正確検定と,その代数幾何学的考察による計算代数統計学という新分野の出現は, 分割表理論の研究を新たな展開へと導いた.高次元分割表データは一般には疎で, 漸近理論を正当化するほどの標本数が期待できないことも多いため, マルコフ基底を用いた正確検定によるモデル同定は,理論面での興味のみならず, 実用的にも有用な推測手法であると考えられる.本発表では, マルコフ基底による正確検定アルゴリズムを概説するとともに,実用上の課題を整理する.
無限次元マルチンゲール中心極限定理の使用法
西山陽一(統計数理研究所) [資料]まず独立同一分布に従う1次元データの経験過程に対する(汎関数の意味での)中心極限定理を復習し、連続写像定理を援用することにより、コルモゴロフ-スミルノフ統計量やクラメール-フォン・ミセス統計量の漸近分布が導出できることを見る。本報告では、この理論を依存データに拡張する著者の研究の核心部分を、マルコフ連鎖の推移密度の適合度検定問題を例題として解説する。ℓ∞-空間およびヒルベルト空間におけるマルチンゲール中心極限定理を紹介し、それを使用するにあたってのポイントを解説する。
量子情報理論の最先端
日時: 11/6 (土) 9:30-12:10オーガナイザー: 林正人(東北大学)
量子誤り訂正符号の基礎と量子秘密分散
小川 朋宏 (電気通信大学 情報システム学研究科) [資料]本発表では量子誤り訂正符号の代表的構成方法の一つである CSS 符号 (Calderbank-Shor-Steane Code) について解説する。最初に、量子状態や測定、測定による量子状態の変化など、量子力学系の基本事項を解説した後、量子力学的なノイズを表す量子通信路の数学的な取り扱いについて解説する。古典的な線形符号では受信系列からシンドロームを計算することでノイズを推定して誤りが訂正できる。量子系では測定により状態が変化するので、不用意に受信した量子状態を測定してノイズを推定しようとすると、送信された量子状態を復元することはできない。量子誤り訂正符号では、どのように誤りを訂正するのかを簡単な例で示し、一般的に、ある条件を満足する古典的な線形符号を二つ組み合わせることで CSS 符号が構成されることを解説する。最後に量子誤り訂正符号の応用例として量子秘密分散法について述べる。
量子暗号の基礎とその実用化に向けて
鶴丸 豊広 (三菱電機) [資料]量子暗号は「絶対に安全な暗号方式」である。なおかつ装置開発や通信デモも盛んにすすめられており、実用化も近いとされている。本発表では量子暗号の安全性証明の概略を説明したのち、装置開発の現状を紹介する。量子暗号の安全性は、理論的には量子誤り訂正符号 (CSS符号) の誤り訂正能力に帰着することができる。古典符号と比較したばあい、CSS符号の特徴としては、通常のビット誤り訂正のみならず「位相誤り訂正」も備えていることにある。そしてこの位相誤り訂正の能力が、量子暗号における盗聴者への情報漏洩確率の評価に直接関係していることを説明する。また実用化に向けた取り組みとして、10月に各機関合同で実施された通信デモ(Tokyo QKD Network)を中心に紹介する。
量子ネットワーク符号
西村 治道 (大阪府立大学 理学系研究科) [資料]ネットワーク符号とは、ネットワーク上での多対多通信において、経路途上における符号化を認めることでより効率的な通信を目論む概念であり、その導入以降盛んに研究が行われている。一方、量子通信では、ネットワーク符号の概念を利用して多対多通信を行う研究は、数年前に端緒が切られたばかりであるが、量子情報伝送の高コスト性を鑑みると、ネットワーク符号化による量子通信量の削減の可能性を追求することは、自然な動機を持つと考えられる。本講演では、量子情報の伝送においてネットワーク符号の概念が有効に働くかに関して、講演者らの研究を中心にその動向を紹介する。
計量経済と機械学習
日時: 11/6 (土) 13:30-15:30オーガナイザー: 加藤賢悟(広島大学) [趣旨説明]
Sequential Estimation of Structural Models with a Fixed Point Constraint (with Hiroyuki Kasahara)
下津克己(一橋大学 経済学研究科) [資料]This paper considers the estimation problem of structural models for which empirical restrictions are characterized by a fixed point constraint, such as structural dynamic discrete choice models or models of dynamic games. We analyze the conditions under which the nested pseudo-likelihood (NPL) algorithm converges to a consistent estimator and derive its convergence rate. We find that the NPL algorithm may not necessarily converge to a consistent estimator when the fixed point mapping does not have a local contraction property. To address the issue of divergence, we propose alternative sequential estimation procedures that can converge to a consistent estimator even when the NPL algorithm does not.
Model Averaging without Non-negative Constraints (with Guido Kuersteiner)
奥井亮(京都大学 経済研究所) [資料]We consider model averaging applying to linear regression models with many regressors. In particular, we consider Hansen's (2007) model averaging in which the model weights are chosen by minimizing an estimated mean squared error. The main deviation from the existing literature is that we allow the weight for averaging to be possibly negative. Allowing negative weights makes the procedure more flexible with respect to the ordering of the regressors. Furthermore, when the weights are allowed to be negative, we can have the explicit formula for the optimal weighting vector.
ノンパラメトリック操作変数推定における変数選択規準
末石直也 (京都大学 経済学研究科) [資料]社会科学で用いられるモデルでは、回帰変数の内生性、すなわち説明変数と誤差項の相関が問題となることが多い。内生性への対処法として、計量経済学ではしばしば操作変数法と呼ばれる手法が用いられる。本発表では、内生性が存在する場合のノンパラメトリック操作変数推定における変数選択の規準を提案する。主要な結果は、Li (1987, Ann. of Stat.) の操作変数 推定量への拡張である。提案された選択規準を用いることで、漸近的にある種の損失関数を最小化する説明変数と操作変数の組み合わせを選択することができることを示す。
理論生物学と学習・統計との新たな接点
日時: 11/6 (土) 15:45-17:45オーガナイザー: 小林徹也(東京大学)
成長する上皮組織の力学過程
石原秀至 (東京大学 総合文化研究科) 杉村薫† (理化学研究所 脳科学総合研究センター) [資料] (†講演者)多細胞生物の発生では次々と変形がおこるが、その変形を促す力学過程について定量的・統合的な評価を行うのは難しい。我々は、細胞の形態から力の釣り合い方程式を導出し、組織の力学場を推定する手法を開発した。上皮組織であるショウジョウバエの翅を対象に、レーザー切断実験やミオシン分布との比較からこの推定の妥当性を確かめた。また、翅の力学場の解析と数値シミュレーションから、従来とは異なる細胞の組み替え過程が翅で起こっていることを見出した。
1分子計測データに対するパラメータ推定
宮崎牧人 (京都大学 理学研究科) [資料]タンパク質の1分子計測実験では、我々の観測できる自由度は系の持つすべての自由度のうちのわずかである。従って、タンパク質の内部情報を抽出するには限られた自由度の測定データから直接観測することの出来ない自由度の動きや分子の物性値を推定しなければならない。この問題に対して統計力学とベイズ推定を組み合わせ、隠れた自由度を持つ微小系に対するパラメータ推定の一般的な枠組みを構成した。簡単なモデルで数値実験を行ったところ、従来のパラメータ推定法より良い推定値を与えた。また、真のパラメータの値がある閾値を超えると推定結果が急激に不安定になる構造を持っていることを見出した。さらに、摂動論を用いて隠れた自由度の最尤軌道を効率的に探索する手法も確立した。本講演では、我々の推定法の枠組みと数値実験の結果を主に紹介したい。
統計モデルによる計算論的認知科学
佐藤好幸 (電気通信大学 情報システム学研究科) 合原一幸 (東京大学生産技術研究所) [資料]人間は周囲から受け取る刺激の統計的性質を学習し、それに伴って知覚や運動を変化させることができる。これを適応現象と呼ぶ。特に、刺激の平均値に対する適応現象には正反対の二種類が存在することが近年わかってきたが、その理由については全く未解明である。ここでは、ベイズ推定を用いて人間の知覚およびその適応現象をモデル化することで、二種類の適応現象が統一的に理解できるという主張を提案する。このようなモデルにより認知科学的に大きなインパクトを持ちうる実験の提案が可能になることを見る。