第11回情報論的学習理論ワークショップ(IBIS2008)

第11回情報論的学習理論ワークショップ (IBIS 2008)

　　　　　2008年10月29日（水）-31日（金）仙台国際センター

ホーム

プログラム

発表申し込み

招待講演

ポスター発表

参加申し込み

実行委員会

スケジュール

問い合わせ先

ポスター発表

ポスターセッションＡ

2008年10月29日(水)　14:30-17:30

A01

Remixing法：脳磁計で単一試行解析を実現するための新しい信号処理手法

小粥貴善

脳磁計（MagnetoEncephaloGraphy:MEG）とは，超伝導量子干渉素子（Superconducting Quantum Interference Devices:SQUID）の技術で生体信号を計測する装置である．SQUIDは非常に高感度なセンサなので，生体信号のみならず，環境ノイズも計測してしまう．つまり，S/Nが良くない．

そこで，これまでのMEG研究では，同期加算平均という方法を用いてS/Nを良くしてきた．しかし，加算平均のためには，常に頭部を固定していなくてはならない．また，脳の活動が，同期の度に，決定論的な時系列データを計測しているという仮定を暗に支持するに等しく，少なからず問題がある．それを明らかにするためには，単一試行で計測する技術が不可欠となる．

単一試行でMEG解析が行えるよう，これまでに無い信号処理の手法が必要とされている．そこで，私はRemixing法（RMX）なる技術を紹介したい．本手法の骨子は以下の通りである．まず，MEGの時系列データにICAを適用し，その中から，頭部から離れた位置にて計測している「ダミー」のセンサを規準に環境ノイズ因子を同定する．そして，ノイズ因子と思しきICA成分を零で置き換え，ICAで算出した混合行列を再び掛け，もとに戻すという手法である．一連の流れが旧来のフィルタに相当し，RMXは適応的信号処理とみなせる．

ICAの前処理には，PCAを用いるため，S/Nの良くないMEG信号処理のケースには馴染まないという批判は当然である．しかし，J. Caoらはrobust pre-whitening（RPW）なる技術でもって，ある程度この批判を克服している[1]．RPWに，機械学習を用いており，本研究は応用研究という位置づけである．

実際，Caoらのアルゴリズムのまま，脳磁場の活動源を推定するのでは上手くいっていないケースがある．ゆえに，本手法のように解を求めるところまで至らずも，応用できるという結果を示し，議論したい．混合行列が線形作用素であるという仮定は，脳活動に適していない可能性は否めないため，まだ改善の余地はあるように思われる．

[1] J. Cao et al., ``Independent component analysis for unaveraged single-trial MEG data decomposition and single-dipole source localization'', Neurocomputing 49(2002), pp. 255-277.

A02

脳の情報処理原理の解明状況

一杉裕志

BESOM モデルと呼ぶ、大脳皮質の神経回路モデルを設計した。このモデルは４つの機械学習技術（自己組織化マップ、ベイジアンネット、独立成分分析、強化学習）をエレガントに組み合わせたもので、脳の機能を再現させるモデルとして計算論的に妥当な特徴を持っている。そして、計算論的に導かれたアルゴリズムを実行する神経回路は、驚くべきことに大脳皮質の主要な解剖学的特徴と非常によく一致しており、大脳皮質の情報処理原理を説明する正しいモデルであることはほぼ間違いない。このモデルを用いて、概念獲得、パターン認識、行動獲得、思考、言語獲得などの、大脳皮質の主要な機能を再現する具体的方法も明らかになりつつある。この神経回路モデルは計算機上で効率的に実行可能であり、工学応用の面でも有望である。筆者は現在、計算機シミュレーションに向けてモデルの詳細化に取り組んでいる。このモデルにより、人と同じような知能を持ったロボットの実現が現実のものになりつつあると考える。

参考：一杉裕志、「脳の情報処理原理の解明状況」
産業技術総合研究所テクニカルレポート AIST07-J00012, Mar 2008.
http://staff.aist.go.jp/y-ichisugi/besom/AIST07-J00012.pdf

A03

エルゴード的な汎化誤差の提案と隠れマルコフモデルの学習曲線

松本匡史、渡辺澄夫

情報科学において広く用いられている学習モデルは、パラメータと確率分布が一対一に対応せず、またフィッシャー情報行列の正定値性が成り立たないため正則でなく特異である。近年、特異モデルについてもデータが独立に同一の分布から発生している場合の学習理論は数学的な基礎が確立された。しかしながら、データが独立でない場合の学習理論はその枠組みも含めて構築されていない。本研究では独立でないデータからの学習を考察するために、極限分布を用いた汎化誤差を提案し、隠れマルコフモデルにおいて、真の分布の構造がエルゴード的な学習曲線に及ぼす影響を実験的に考察した。この汎化誤差はデータが独立な場合と同様にサンプル数が増えるに従って小さくなっていくが、学習係数はデータの時間依存に強く影響を受けることが明らかとなった。

A04

強化学習におけるソフトマックス戦略のパラメータの新しい調整法

小野兼嗣、岩田一貴、林朗

強化学習が定常エルゴードマルコフ決定過程（MDP）に従うとき，状態‐行動‐報酬の時系列の典型集合の要素数は，MDPの確率密度関数のエントロピーによって決められる．このエントロピーはMDPの確率的複雑さ（SC）と呼ばれる．エージェントの行動選択戦略のパラメータに関するSCの導関数は，探査と知識利用のジレンマを調整する際に重要な指標となることが近年示された．本論文では，その導関数を使って，代表的な行動選択戦略であるソフトマックス戦略のパラメータの新しい調整法を提案する．

A05

ガウス過程のWeight-space Viewを用いた非線形エコーキャンセラの設計

冨田純一郎、平井有三

近年，携帯電話の小型化に伴い，マイクやスピーカも小型化が進んでいる．小型のマイクやスピーカは非線形成分の影響が大きく，特に安価なマイクやスピーカ程その影響は大きい．そのため，線形成分のみならず，非線形成分も消去する必要性が出てきている．従来のエコーキャンセラとしては，適応フィルタを用いるエコーキャンセラが提案されている．非線形成分にも対応する方法として，適応Volterraフィルタを用いる方法があり，計算量が膨大になるためVolterra項の次数は2次までとするのが一般的である．しかし，フィルタ係数の学習アルゴリズムとして勾配法の一つであるNLMS法を用いると，入力信号が有色性や非定常性を持つ場合には収束速度が劣化することが報告されている．

本研究では，ガウス過程のWeight-space View を用い，伝達関数を推定することによって線形エコー，及び非線形エコーを消去している．この手法では，伝達関数の事前分布がガウス分布に従うと仮定し，学習データから求めた尤度関数を掛け合わせることにより伝達関数の事後分布を求める．事後分布は再びガウス分布となり，伝達関数の推定値は事後分布の期待値と分散で表される．本研究では，伝達関数の推定値を事後分布の期待値で表すことにした．また，両方の話者が同時に話すダブルトーク状態の際には，パラメータの推定を一旦停止することで対応した．推定精度の評価方法としては，一般的な指標であるERLE(Echo Return Loss Enhancement)を用いており，白色信号，定常有色信号，非定常有色信号，音声信号に対して評価を行った．その結果，ERLEを100dB以上に収束させることができた．今後の課題としては，ダブルトーク状態において伝達関数が変動した場合での推定，計算量の低減が挙げられる．事後分布の期待値を求める際に逆行列を計算する必要があり，その計算量はO(N3)であるため，リアルタイムで推定を行うためには計算量の低減が必要である．

A06

A new statistical approach for combining classifiers and its application to multi-class classification

白石友一

近年、候補となるいくつかの判別機の中で最適なものを選ぶのではなく、何らかの方法で組み合わせて新しい判別機を構成するという方法論についての研究が進んでおり、特にパラーン認識の分野において、この方法論の有効性の検証がなされている。判別機の結果を組み合わせる代表的な手法の一つにtackingという手法がある。これは、個々の判別機の重みの学習のための基準をクロスバリデーションを用いて補正を行う手法であり、この手法の有効性は多くの文献で検証されている。しかし、クロスバリデーションの分割に依存したバイアスやランダムネスが生じてしまうことなどの問題点もあり、まだ解決すべきことは多い。本研究においては、各々の判別機の重みを学習する方法を統計的に捉え、リサンプリング法を用いた新しい判別機の組み合わせ法を提案する。さらに、数値実験により提案手法と既存の方法との比較を行う。また、本手法の多値判別問題への応用を図る。

A07

多細胞同時記録スパイク時系列データの状態空間モデル

島崎秀昭、ソーニャグリューエン

神経科学における電気生理実験は, 一般に知覚刺激等の情報は単一神経細胞のスパイク発火頻度に符号化されているという考えに基づいて行われてきた. これに加えて, 神経細胞集団の協調活動がスパイク間の同期という形で現れ, スパイク時系列間の相関構造にも情報が符号化されているとする仮説も古くから提唱されている. 実際, 多細胞同時計測技術の発展により, 神経細胞間のスパイク相関が動物の行動と密接な関係にあることが示唆されている[Riehle, Gruen, Diesmann, and Aertsen, Science (278) 1950-1953, 1997].

神経スパイク時系列の高次相関解析手法として, 定常性を仮定した下で高次相関の有無を検定する手法等が提案されている. しかし, 既存の手法では行動に伴って現れる可能性のある, 神経スパイク間の動的な相関構造を捉えることができない. そこで我々は状態空間モデルを用いて, 時間変動するスパイク高次相関を推定する手法を開発した.

本手法では, 離散化した並列スパイク時系列を条件付き独立な多変量ベルヌーイ過程としてモデル化する. 連結関数として対数線形(log-linear)関数を用いることで, 高次相関が情報幾何により定義される [Amari, IEEE Trans. Inf. Theory 47(5) 1701-1711, 2001]. 状態（対数線型モデルの自然母数）の事後分布を対数二次形式で近似し, 非線形再帰濾波公式を導出した. 濾波公式と固定幅平滑化公式を併せて時間変動する自然母数を推定した. 推定に用いる超パラメータはEMアルゴリズムにより最適化した.

予測誤差の小さい良いモデルを得るために, 階層的な対数線形-状態空間モデルを用意してモデル選択を行った. 高次の相関構造をモデルに組み込めば, 並列スパイク時系列データを精密に記述することができる. しかし, r次の相関を含むモデルの回帰には十分統計量としてr次の同期スパイクデータを必要とするため, 高次になるに従い同期スパイク数の減少に伴う標本誤差が生じる（過剰適合）. そこで, r次までの相関を含むモデル(最大エントロピーモデル)に対し赤池情報量基準を求め, モデルに組み込むべき相関の次数を選択した.

本手法は計算機上で生成した疑似スパイク時系列に対して適用した. 将来的には, 本手法を実神経スパイクデータに適用することで, 集団としての神経細胞活動を明らかにし, 動物の認知・行動との関係について神経生理学的知見を得ることを目標にしている.

A08

Bowman-Levin法を用いたLDPC復号

田村健一、小宮美穂、井上真郷、樺島祥介

機械学習の分野で高次元確率分布を扱う場合，その周辺確率を求めたいという問題がしばしば発生するが，一般に指数オーダーの計算量が必要となり，容易でない．少ない計算量で近似的に周辺確率を求めるアルゴリズムとしてBelief Propagation (BP)，Concave-Convex Procedure (CCCP)といった手法が用いられている．近年の研究でBPは統計力学の分野でBethe自由エネルギーと呼ばれる，KL情報量をBethe近似した関数の極値を求めることと等価であることが示されている．また，CCCPは極小値への収束を保証している．これらは低密度パリティ検査(LDPC)符号の復号問題等に応用され，成果を挙げている．BP，CCCPによるBethe自由エネルギーの最適化は，二種類の変数に関して行われている．我々は，この二つの変数の主変数，従変数の役割を入れ替えるBowman-Levin法 (BL) と呼ばれる統計力学分野の手法を用いて，Bethe自由エネルギーの極値を求める手法を開発した．これをLDPC復号問題に適用したところ，BPやCCCPと同程度の復号性能を示し，条件によっては勝ることもあった．また，開発手法のパラメータ設定に関して，パラメータ値の偶奇により，復号ダイナミクスが大域探索的であるか，局所探索的であるかという著明な違いが出るということを発見した．

A09

Local Fisher Discriminant Analysis for image classification

山田誠、杉山将

In image classification, we often face with a situation where data samples in the same class form several separate clusters i.e. multimodal data, for example, people in different scenes such as a street or an office. In such cases, standard Fisher discriminant analysis (FDA) does not work well since it presumes that data samples in each class follow a unimodal Gaussian distribution. On the other hand, a localized variant of FDA called local FDA (LFDA) can alleviate the ill-effect of multimodality, while computational
efficiency of FDA is not spoiled. In this paper, we experimentally show that the metric learned based on LFDA combined with a support vector machine highly improves classification performance in the Mediamill challenge dataset.

A10

決定株を利用したAdaBoostのモデル選択に関する実験的検討

梶大介、渡辺澄夫

AdaBoostはその高い関数近似能力から情報システムや人工知能、バイオインフォマティクスなどの広い分野で用いられている. しかし,最尤法やベイズ推定から導かれる識別器ではないことから,その汎化性能については明らかにされておらず、したがって汎化誤差最小化のための具体的な手法もまた確立されていない. 本稿ではパラメータ次元としてAdaBoostで採択される弱識別器数を用いる形式的なAIC,BICによるモデルを選択方法を提案する. これらの情報量規準については汎化誤差との理論的な関係についてはまだ得られていないが,実験によりそのモデル選択の効果を確認できたので,導出の考え方と合わせて報告する.

A11

独立成分分析と情報量基準に基づく最適な線形特徴の推定

松田源立

主成分分析（PCA）に代表される多次元データからの線形特徴抽出手法は、多変量解析において最も基本的かつ強力なツールである。それらの手法では、元データ信号を線形変換し、互いに非相関な特徴量を抽出する。しかし、特徴量が互いに非相関であるという制約だけでは、線形変換行列は一意には決定されず、任意の正規直交行列に対応する自由度を持つため、他の指標を併せて利用する必要がある。例えばPCAにおいては、各特徴の分散が最大となるという条件を付け加えるが、これはそれらの分散が似通っている場合は必ずしも有効な指標ではない。それに対し、近年注目されつつある独立成分分析（ICA）は、各特徴の三次以上の高次統計量を最適化することで、より有効な特徴抽出を可能とするものと期待されている。しかし、使用する高次統計量の選択法や、ノイズ、外乱の影響等に関して、様々な困難を抱えているのも事実である。そこで、本研究では、PCAやICAに関する知見を踏まえつつ、情報量基準に基づく線形特徴抽出手法を提案する。情報量基準はAICやBICに代表され、いわゆる「オッカムの剃刀」の原理を数学的、統計学的に導出したものであり、比較的少ないパラメータ数で尤度の高くなるモデルを選択する基準である。通常の線形特徴抽出では、パラメータ数は線形変換行列の成分数であり、元データの次元に依存した一定値であるので、情報量基準は有効ではない。しかし、本研究では、発表者が以前提案したICAの解法の一種である線形多層ICA（LMICA）を応用することで、パラメータ数の段階的な増減を可能とした。LMICAでは、元データ信号群から、最も相関の高い信号のペアを取り出し、そのペアに関してのみ非相関化と統計量の最適化を行う。これを相関の高い順に多くのペアを取り出して繰り返し行うことで、全体的な線形特徴の抽出を行う。この場合、一つのペア最適化に関するパラメータの自由度は非常に小さいので、パラメータ数を徐々に変化させることが出来る。従って、各ペア最適化のたびに情報量基準を計算し、情報量基準が最適となった段階でペア最適化を打ち切ることで、情報量基準に関して最適な線形特徴抽出が可能となる。そのような特徴は、非相関な特徴群の中で、最小の数のペアの混合で表されたものと解釈され、オッカムの剃刀の概念から見て有効なものであると期待される。本発表では、以上のアイデアに基づいてアルゴリズムを構築し、実データに関して実験を行い、提案手法の有効性について議論する。

A12

データのノイズを考慮したボルツマンマシンの学習アルゴリズム

丹内隼也、安田宗樹、田中和之

ボルツマンマシンはマルコフ確率場の形式をもつ相互結合型のニューラルネットワークであり，豊富な構造をもつ事前分布の学習機械として期待されている．データにノイズが含まれない場合，すなわちデータを完全に信頼できる場合のボルツマンマシンに対する学習アルゴリズムはこれまで多くの研究により開発されてきている．しかし，現実にはデータにノイズが混ざり必ずしもデータ自体を十分に信頼できるかどうか分からない場合もある．そのような場合，データに含まれるノイズを考慮しそれを上手く取り除き，ノイズを含まない元々のデータに対する正しい生成モデルを学習することが望まれる．そこで本研究ではデータのノイズを仮定した下でのボルツマンマシンのモデルとそれに対する学習アルゴリズムをEMアルゴリズムを基礎として提案する．EMアルゴリズムは不完全なデータが存在する場合の最尤推定法として広く知られた手法であり，ノイズがのったデータからその背後にある真の分布を推定する本提案モデルに適用できる．しかしながら一般にボルツマンマシンの学習はNP-hard問題であり，本提案モデルにも同様の困難さが付きまとう．その原因はボルツマンマシンの統計量の計算にあり，これがユニット数に対して指数オーダーの計算量となるからである．そこで我々はビリーフプロパゲーションを採用することにより，この困難さを回避した近似学習アルゴリズムを提案する．提案近似学習アルゴリズムは高々リンク数の計算オーダーで済むため高速である．また我々は人工データにして数値実験を行い，提案モデルと学習アルゴリズムはデータのノイズに対して優れたパフォーマンスをもつことを示す．

A13

ベイズモデルを用いた、ネットワークからのコミュニティ抽出

坪坂正志、増田直紀

ネットワークからコミュニティと呼ばれる相対的に強く関係している部分の抽出を行う研究は社会学、物理学、情報学などさまざまな分野からアプローチがなされている。近年ではネットワークの生成モデルを設定して、与えられたネットワークからパラメータ推定を行うことによりコミュニティを求めるという研究が注目されている
(M. E. J. Newman and E.A. Leicht. PNAS 2007, Yu-Ru Lin et al. WWW 2008)。今回の発表ではコミュニティ手法の中で二部グラフを用いた確率モデル(Kai Yu et al.NIPS 2005)をベイズ拡張したモデルを提案する。これにより先行研究では行えなかったクラス数のモデルの上での推定が可能となった。提案モデルの紹介とその数値実験による評価について発表する。

A14

高速なペアワイズカーネルの提案と汎化誤差解析について

鹿島久嗣、小山聡、山西芳裕、津田宏治

ペアワイズ分類はネットワーク予測，エンティティ解決，協調フィルタリングなどの多くのアプリケーションを持つ．これらの目的のために，ペアワイズカーネルが複数の研究グループによって独立に提案され，様々な領域で成功を収めてきた．本発表では，「カルテシアンカーネル」と我々が呼ぶ新しい高速なペアワイズカーネルを提案する．既存のペアワイズカーネル（クロネッカーカーネルと呼ぶ）が，二つのグラフのクロネッカー積グラフの重み付き隣接行列と解釈できるのに対し，カルテシアンカーネルは，より疎なグラフであるデカルト積グラフのそれと解釈できる．実験結果から，カルテシアンカーネルが既存のペアワイズカーネルよりもはるかに高速であると同時に，予測性能においても匹敵することが示された．これら二つのペアワイズカーネルによる汎化誤差
の上限をカーネル行列の固有値解析を用いて議論し，Nワイズカーネルへの拡張についても示す．

A15

COPINE: Mining Networks Sharing Common Patterns

Jun Sese, Mio Seki

We specifically examine an undirected graph in which the nodes have a set of items, such as a social network in which the nodes are associated with each person's bought products or a gene network in which the nodes are related to each gene's activated conditions. For a given graph, the subgraphs whose
vertices contain common patterns have various applications. For example, in a social network, such subgraphs would indicate communities associated with the viral marketing of products. In a gene network, the subgraphs might provide clues related to the time and location at which the cellular networks is working. The subgraph quality would be evaluated by the graph size and common itemset size. In such a setting, the largest subgraphs sharing more than a threshold number of items would be interesting network because they might have a strong effect in the viral marketing of products or cell activities.
However, it is difficult to find such subgraphs because the number of subgraphs increase exponentially with the graph size. In order to overcome this difficulty, we introduce an algorithm called COmmon Pattern Itemset NEtwork mining ({\it COPINE}) that contains two data structures: a {\it DFS itemset tree} and
a {\it crossed pattern table}. The DFS itemset tree is a DFS tree whose node consists of a vertex of the given graph and a common itemset on the search path. The crossed pattern table includes the relations of the visited nodes and searched itemsets. The combination of these two structures enables us to compute optimal solutions efficiently in practice. We demonstrate the efficiency of our algorithm in mining the largest common pattern graph from synthetic datasets. We also present experiments performed using two real biological networks having 8,000 and 10,000 edges. The results confirm that COPINE can discover useful biological graphs even if the solutions have complicated structures.

A16

A non-parametric Bayesian approach for predicting RNA secondary structures

Kengo Sato, Michiaki Hamada, Toutai Mituyama, Kiyoshi Asai, Yasubumi Sakakibara

Many functional RNAs form stable secondary structures which are related to their functions such as gene regulation or maturation of mRNAs, rRNAs and tRNAs. Currently, since experimental determination of base-pairs of RNA secondary structures is yet difficult and expensive, especially for high-throughput assays, computational prediction of RNA secondary structures is widely used instead of experimental assays. Therefore, the improvement of computational prediction of RNA secondary structures is one of crucial problems in bioinformatics. Secondary structures without pseudoknots can be modeled by stochastic context-free grammars (SCFGs). Therefore, several computational methods based on SCFGs have been developed for modeling and analyzing functional RNA sequences. Recently, CONTRAfold has been proposed and outperformed the other existing methods including thermodynamics methods. CONTRAfold is based on discriminative models which infer conditional distributions directly. For this reason, discriminative models can employ more flexible features which provide us higher predictive powers than generative models. However, this makes the model unable to calculate joint probability distributions over inputs and outputs, that is, it is difficult to derive more complicated stochastic models like QRNA and EvoFold from discriminative models. We propose a non-parametric Bayesian approach for predicting RNA
secondary structures based on hierarchical Dirichlet processes for stochastic context-free grammars (HDP-SCFGs). Here, "non-parametric" means that some meta-parameters such as the number of non-terminal symbols and transformation rules do not have to be fixed but their distributions are inferred so as to be adaptive to given training sequences in the Bayesian sense. Our results of RNA secondary
structure prediction show that HDP-SCFGs are more accurate than the MFE-based models and other generative models, and comparable with CONTRAfold. Furthermore, HDP-SCFGs can be used as a prior distribution of more complicated models because HDP-SCFGs are one of generative models.

A17

Simple Recurrent Temporal-Difference Networks

Takaki Makino

We propose a new neural network architecture, called Simple Recurrent Temporal-Difference Networks (SR-TDNs), that learns to predict future observations in partially observable environments. SR-TDNs incorporate the structure of simple recurrent neural networks (SRNs) into temporal-difference (TD) networks to use proto-predictive representation of states. Although they deviate from the principle of predictive representations to ground state representations on observations, they follow the same learning strategy as TD networks, i.e., applying TD-learning to general predictions. Simulation xperiments revealed that SR-TDNs can correctly represent states with incomplete set of core tests (question networks), and consequently, SR-TDNs have better on-line learning capacity than TD networks in various environments.

A18

トピックモデルに基づくユーザ興味の追跡

岩田具治、渡部晋治、山田武士、上田修功

日々蓄積される購買データから、トピックモデルに基づきユーザの興味を逐次的に推定する手法を提案する。提案法は過去のデータを保持する必要がなく、また興味変化や流行変化に柔軟に対応可能であるという特長を持つ。実購買データを用いた実験を行い、購買予測精度、計算量の観点から、提案法の有効性を示す。

A19

菊池自由エネルギーに対するCCCPの拡張とCDMAマルチユーザ復調アルゴリズム

西山悠、外崎幸徳、渡辺澄夫

高次元確率分布の統計量，あるいは高次元確率分布の周辺確率を直接計算することは，指数オーダの計算を必要とするタスクであり, 様々な効率的近似アルゴリズムが研究されている．周辺確率についての汎関数であるベーテ自由エネルギーの最小値は近似的な周辺確率を与えることが知られ，ベーテ自由エネルギーを階層的に拡張した菊池自由エネルギーの最小値はベーテ自由エネルギーのそれよりも近似精度の良い周辺確率を与えることが知られている．菊池自由エネルギーの最小化の方法のひとつに Concave and Convex Procedure (CCCP)[1] が提案されている．ループを含むグラフ上で定義された確率分布に適用された確率伝搬法は収束する保証のない推論アルゴリズムであるが，CCCPは収束性が保証されたアルゴリズムになっている．しかしながら，CCCPは大きな計算コストを必要とする問題点がある．本発表では，菊池自由エネルギーに対するCCCPアルゴリズムを拡張した New CCCP(NCCCP)アルゴリズムを提案する． NCCCPは従来のCCCPにおける凹凸関数の分解の不定性を利用して新しいパラメータを導入したアルゴリズムであり、CCCPと同様に菊池自由エネルギーを単調に減少させることができる. NCCCPにおいて従来のCCCPアルゴリズムは，高次元パラメータ空間内の1点に対応させることができる．導入したパラメータを適切に選ぶことでCCCPの計算量を大きく削減することができる[2]．本発表では，特にベーテ自由エネルギーに対するNCCCPアルゴリズムをCDMAマルチユーザ復調問題に適用した場合の検出アルゴリズムを導く．そしてその数値実験例を示す．このアルゴリズムは[3]の拡張になっている．

[1]A.L. Yuille, "CCCP Algorithms to Minimize the Bethe and Kikuchi Free Energies: Convergent Alternatives to Belief Propagation", Neural Computation 14(7), 1691-1722, 2002.
[2]Yu Nishiyama and Sumio Watanabe, "Generalization of Concave and Convex Decomposition in Kikuchi Free Energy", Proc. of ICANN2008, LNCS 5163, pp.51-60, 2008.
[3]外崎幸徳，樺島祥介 "CCCPに基づくCDMAマルチユーザ検出アルゴリズム", 電子情報通信学会和文誌(D)，Vol. J89-D, No. 5, pp. 1049-1060, 2006.

A20

重複したクラスタを防ぐ Biclustering の拡張

大村蓉子、瀬々潤

遺伝子発現量解析において、クラスタリンクにより遺伝子もしくは観測条件をクルーフ化するタスクは頻繁に行われる。Cheng and Church によってbiclusteringか導入されて以降、遺伝子と観測条件を同時にクラスタリンクするサフスヘースクラスタリンクの手法か研究されるようになっている。しかし、biclustering ては生成されるクラスタ数か大量となり、かつ、重複するクラスタか多く含まれるため、結果の解釈か困難てあり、実際の遺伝子発現量テータに適用した例は必すしも多くない。本研究ては、平行移動て表されるサフスヘースクラスタリンク手法てある pClusterを基に、クラスタの併合、削除を行うことて、無用な重複を防いたクラスタの生成を行う。

A21

Dynamic Exponential Family Matrix Factorization

林浩平、平山淳一郎、石井信

We propose a new approach to modeling time-varying relational data such as e-mail transactions based on a dynamic extension of matrix factorization. To estimate effectively the true relationships behind a
sequence of noise-corrupted relational matrices, their dynamic evolutions are modeled in a space of low-rank matrices. The observed matrices are assumed as to be sampled from an exponential family
distribution that has the low-rank matrix as natural parameters. We apply the sequential Bayesian framework to track the variations of true parameters. In the experiments using both artificial and real-world
datasets, we demonstrate our method can appropriately estimate time-varying true relations based on noisy observations, more effectively than existing methods.

A22

隠れマルコフモデルの巨視的な時間発展に基づく逐次適応アルゴリズムとその音声認識への応用

渡部晋治、中村篤

隠れマルコフモデル(HMM)は音声認識や文字認識，ゲノム解析などの伸縮性を持つ時系列の解析に広く用いられている．一般にHMMは，近接する部分時系列の時間依存性を柔軟にモデル化することが可能であるが，長距離の時間依存性をモデル化するのは不得手である．我々は，このような異なる時間スケール
が階層的に混在する時系列のモデル化として，局所的な時系列を表現するHMMと，HMM自体が巨視的な時間スケールで線形動的システムによって時間発展する時系列モデルを組み合わせた，巨視的な時間発展システムに基づく逐次適応アルゴリズムを提案する．提案法は，期待値最大化アルゴリズムに基づいて，モデルパラメータの事後分布を解析的に逐次推定することが可能である．また提案法は，HMMの逐次適応アルゴリズムとしてよく知られる線形最尤回帰法及び事後確率最大化法を包含することを理論的・実験的に示す．特に，音声認識の逐次適応タスクに提案法を応用することにより，迅速且つ安定に環境変化に追従する，逐次追従型の音声認識を実現する．

A23

ノンパラメトリックベイズを用いた複数対象トラッキングと複数ダイナミクスの同時推定法

石黒勝彦、山田武士、上田修功

コンピュータビジョンの研究において、複数対象の同時トラッキング（追跡）問題はここ数年来多くの注目を集める研究テーマとなっている。従来の複数対象トラッキング手法は、全ての追跡対象について１つのダイナミクスモデルを適用することが多かった。しかし、シーン内に存在する全ての対象が常に同一のダイナミクスに従うとは考えにくい。この問題に対処するためには混合カルマンフィルタなどのように複数コンポーネントからなるダイナミクスモデルが必要となるが、シーン解析前に適切な数とパラメータをもったダイナミクスパターンをすべて人手で書き下すことは困難である。本研究では、複数の移動対象を追跡すると同時に、これまでの行動履歴をクラスタリングすることでシーン中に現れる複数の運動パターンを学習する手法を検討する。特に本研究ではDirichlet Process Mixtureに注目して、ベイズフィルタモデルと統合したオンラインの確率的生成モデルを提案する。人工データおよび実動画像データを用いた実験を通して、提案モデルの性能を示す。

A24

仮想状況データと現実状況データの融合によるユーザ嗜好モデルの構築

麻生英樹、本村陽一、小野智弘

近年、コンテンツサービス、小売サービス、ナビゲーションサービス等において、ユーザの嗜好をモデル化し、それに基づいてマーケティングや商品推薦等を行うことが盛んになっている。

ユーザの嗜好を統計的にモデル化するためには、大量の学習用データが必要である。特に、最近では、ユーザの嗜好が状況によって大幅に変化することが注目され、状況依存な嗜好モデルの構築を求めらることが多いが、そのためには、様々な状況下に置かれたユーザの嗜好に関するデータの収集が必要となる。

たとえば食事推薦の場合、実際の状況で、すなわち、被験者の空腹状態、あるいは疲労状態などをコントロールしながら嗜好に関するアンケートデータを収集することには大きなコストがかかる。結果的に、多くの事例において、少数のデータからモデルを構築するか、あるいは、被験者に、特定の状況にあることを想定させて嗜好を尋ねる、すなわち、仮想状況でデータを収集することが行われている。

そうした仮想状況下での回答と、実際にユーザが特定の状況に置かれた現実状況下での回答とにはずれが存在することが予想されるが、そのずれについて詳細に検討が行われた例はあまり知られていない。

本発表では、食事メニューの嗜好を対象として、仮想状況で採取したデータと現実状況で採取したデータとのずれについて検討する。さらに、大量の仮想状況データと少量の現実状況データを融合し、ずれを補正することで、仮想状況データあるいは現実状況データのみの場合よりも精度の高い嗜好モデルを構築する方法を提案し、その有効性をアンケートデータに基づいて検証する。

A25

次元削減の再構成誤差を用いた異常検知手法の比較

乾稔、矢入健久、町田和雄

データマイニングを用いた異常検知手法はこれまでに多数提案されており，実世界の問題への応用が期待されている．しかし実世界のデータはノイズが多く，また構造が複雑なため，適用する手法の選定が非常に重要となってくる．また，実際の問題への応用を考えたとき，応用先の専門家にデータマイニングを用いた
異常検知の結果を提示しても，残念ながら直感的に理解しにくいという意見をもらうことが多い．ゆえに，異常の検知結果から専門家による詳細な診断へのスムーズな移行が可能となるよう，いかに理解しやすく，利用しやすい結果の提示を行えるか，という点が焦点となる．そこで，今回は次元削減による再構成誤差を用いた異常検知手法について，現在提案されている様々な次元削減手法を適用し評価した．特に，今回の異常検知手法では，再構成したデータを提示することが出来るので，異常発見時の専門家への直感的な結果の提示が可能となる．ゆえに実問題への応用時に有用であると判断し，再構成誤差という観点から既存の次元削減・特徴抽出手法の評価を行った．具体的には，代表的なPCAをはじめ，局所線形なMixture PCA，非線形なKernel PCA，局所構造を保存するLocally Linear Embedding，確率的回帰学習であるGaussian Process，Neural NetworkのAuto-encoder等，再構成誤差を定義できるものについて，人工データと衛星の実データに対して行いその特徴や有用性を評価した．また，得られた評価結果から，衛星データのデータ構造の特徴や，それぞれの手法の効果的な適用方法を検討した．データマイニングを用いた異常検知手法はこれまでに多数提案されており，実世界の問題への応用が期待されている．しかし実世界のデータはノイズが多く，また構造が複雑なため，適用する手法の選定が非常に重要となってくる．また，実際の問題への応用を考えたとき，応用先の専門家にデータマイニングを用いた異常検知の結果を提示しても，残念ながら直感的に理解しにくいという意見をもらうことが多い．ゆえに，異常の検知結果から専門家による詳細な診断へのスムーズな移行が可能となるよう，いかに理解しやすく，利用しやすい結果の提示を行えるか，という点が焦点となる．そこで，今回は次元削減による再構成誤差を用いた異常検知手法について，現在提案されている様々な次元削減手法を適用し評価した．特に，今回の異常検知手法では，再構成したデータを提示することが出来るので，異常発見時の専門家への直感的な結果の提示が可能となる．ゆえに実問題への応用時に有用であると判断し，再構成誤差という観点から既存の次元削減・特徴抽出手法の評価を行った．具体的には，代表的なPCAをはじめ，局所線形なMixture PCA，非線形なKernel PCA，局所構造を保存するLocally Linear Embedding，確率的回帰学習であるGaussian Process，Neural NetworkのAuto-encoder等，再構成誤差を定義できるものについて，人工データと衛星の実データに対して行いその特徴や有用性を評価した．また，得られた評価結果から，衛星データのデータ構造の特徴や，それぞれの手法の効果的な適用方法を検討した．データマイニングを用いた異常検知手法はこれまでに多数提案されており，実世界の問題への応用が期待されている．しかし実世界のデータはノイズが多く，また構造が複雑なため，適用する手法の選定が非常に重要となってくる．また，実際の問題への応用を考えたとき，応用先の専門家にデータマイニングを用いた異常検知の結果を提示しても，残念ながら直感的に理解しにくいという意見をもらうことが多い．ゆえに，異常の検知結果から専門家による詳細な診断へのスムーズな移行が可能となるよう，いかに理解しやすく，利用しやすい結果の提示を行えるか，という点が焦点となる．そこで，今回は次元削減による再構成誤差を用いた異常検知手法について，現在提案されている様々な次元削減手法を適用し評価した．特に，今回の異常検知手法では，再構成したデータを提示することが出来るので，異常発見時の専門家への直感的な結果の提示が可能となる．ゆえに実問題への応用時に有用であると判断し，再構成誤差という観点から既存の次元削減・特徴抽出手法の評価を行った．具体的には，代表的なPCAをはじめ，局所線形なMixture PCA，非線形なKernel PCA，局所構造を保存するLocally Linear Embedding，確率的回帰学習であるGaussian Process，Neural NetworkのAuto-encoder等，再構成誤差を定義できるものについて，人工データと衛星の実データに対して行いその特徴や有用性を評価した．また，得られた評価結果から，衛星データのデータ構造の特徴や，それぞれの手法の効果的な適用方法を検討した．データマイニングを用いた異常検知手法はこれまでに多数提案されており，実世界の問題への応用が期待されている．しかし実世界のデータはノイズが多く，また構造が複雑なため，適用する手法の選定が非常に重要となってくる．また，実際の問題への応用を考えたとき，応用先の専門家にデータマイニングを用いた異常検知の結果を提示しても，残念ながら直感的に理解しにくいという意見をもらうことが多い．ゆえに，異常の検知結果から専門家による詳細な診断へのスムーズな移行が可能となるよう，いかに理解しやすく，利用しやすい結果の提示を行えるか，という点が焦点となる．そこで，今回は次元削減による再構成誤差を用いた異常検知手法について，現在提案されている様々な次元削減手法を適用し評価した．特に，今回の異常検知手法では，再構成したデータを提示することが出来るので，異常発見時の専門家への直感的な結果の提示が可能となる．ゆえに実問題への応用時に有用であると判断し，再構成誤差という観点から既存の次元削減・特徴抽出手法の評価を行った．具体的には，代表的なPCAをはじめ，局所線形なMixture PCA，非線形なKernel PCA，局所構造を保存するLocally Linear Embedding，確率的回帰学習であるGaussian Process，
Neural NetworkのAuto-encoder等，再構成誤差を定義できるものについて，人工データと衛星の実データに対して行いその特徴や有用性を評価した．また，得られた評価結果から，衛星データのデータ構造の特徴や，それぞれの手法の効果的な適用方法を検討した．

A26

主成分分析のVC次元

赤間陽二、入江慶、河村彰星、上野康隆

主成分分析は高次元のデータたちを低次元のアフィン部分空間で近似する統計推論であり、実務で広く用いられている.この近似アフィン空間へのデータたちの平均二乗距離は、そのアフィン空間へのデータの二乗距離の期待値へ確率収束するが、主成分分析から誘導される概念クラスのVC次元がわかると、その収束の速さが統計的学習理論により非漸近的かつデータの分布に独立に評価することができる。またこの概念クラスは球や円筒、板の族など自然な幾何的概念を含んでいる。本発表では上述のVC次元に対しその評価を与える。具体的には、d次元ユークリッド空間内のデータをe(e<d)次元アフィン部分空間で近似する推論が誘導する概念クラスCdeはe次元アフィン部分空間から一定の距離にある点全体の集合であり、そのVC次元は(d-e+1)(e+1)とその8.7403...倍の間にあることを証明した。下界は漸化式により与え、上界には多様体論におけるSardの定理や、与えられた有限個の点から等距離であるアフィン部分空間の連結成分の個数評価を用いた。これによりVC次元が、関連する多様体の次元のオーダーになることが推測できる

A27

An approach for change-point detection based on direct importance estimation

Yoshinobu Kawahara, Masashi Sugiyama

Change-point detection in time-series data is the problem of discovering time points at which properties of time series change. In this paper, we present a novel non-parametric approach to detecting the change of
probability distributions of sequence data. Our key idea is to monitor the ratio of probability densities, not the probability densities themselves. This formulation allows us to avoid non-parametric density stimation, which is known to be a difficult problem. We provide a direct density-ratio estimation algorithm that can be computed very efficiently in an online manner. The usefulness of the proposed method is demonstrated through experiments using artificial and real datasets.

A28

異常検出サポートベクトルマシンと多クラス問題への拡張

藤巻遼平

本稿では、テストデータに未学習クラスのデータが含まれる状況における分類問題を扱う。従来研究の研究の多くは、この問題を、未学習クラスのデータを検出する異常検出問題と、既学習クラスのデータを分類する識別問題の2段階のアルゴリズムを提案している。本研究では、異常検出と識別の2つの問題を同時に解くための、異常検出サポートベクトルマシンを提案し、複数の異常検出サポートベクトルマシンによる投票を利用して、多クラスの問題へ拡張する。実験では、人工データおよびUCIデータに対して提案手法を適用し有効性を確認した。

A29

A Problem-Dependent Modification of Kernels for Binary Classifiers

小嶋信矢、降旗大介

二値分類問題に用いるカーネルを、問題依存修正する手法を提案する。カーネルマシンで学習を行う場合、そのパフォーマンスはカーネルの選択に大きく左右される。本発表では、二値分類問題について、問題に対する事前知識を用いて既存のカーネルから新しいカーネルを構築する方法を提案する。

提案手法の要点
１、特徴空間をリーマン球面で一点コンパクト化する。
・元となる特徴空間の性質をほぼ保存することが可能
・得られるカーネルは計算量的な問題を持たない
２、リーマン球面への射影のパラメータに事前知識を反映させる。
・単純な操作により、球面において入力が自然に二分される
・分離面付近で解像度を上げることで分離可能性を確保しつつ過学習を回避する
実験ではカーネルマシンとしてサポートベクターマシンを用い、一回目の学習結果を事前知識として再度学習を行うという形をとった。二種類の人工的な事例と二種類の実世界の事例に対して行った実験により、特に過学習が生じやすい問題において性能の向上を確認することができた。

ポスターセッションＢ

2008年10月30日(木)　14:30-17:30


B01	典型パターン因子を統計量として用いた経験ベイズ検定による差異発現遺伝子検出法
	大羽成征、石井信
	多数のよく似た仮説検定を同時に行うことを同時多重仮説検定と呼ぶ。とくにバイオインフォマティクス分野での必要性から近年急速に研究が進んでいるが、さらに広くデータマイニングのあらゆる領域での応用が見込まれる。同時多重仮説検定の典型的な課題として、遺伝子発現量の網羅的計測データからラベルつき細胞標本群間で平均発現量の異なる差異発現（DE）遺伝子を検出する問題があり、１９９０年代後半から現在に至るまで性能改善のための研究が続けられてきている。多重検定でも通常の仮説検定と同様に、第一種過誤（偽陽性）のコントロールと、第二種過誤（偽陰性）の減少の二つを主な課題とするが、その両者において多重性が大きな影響を与えるため、その影響を考慮し利用する方法が研究対象となっている。当初は古典的な統計量のもとで False Discovery Rate (FDR) をコントロールする方法がさかんに研究されてきたが、近年では同時に評価される検定間での情報共有に基づく検出力の高い統計量が工夫されている。本研究では、遺伝子発現パターン間に臨床ラベルに直接対応しない相関がある状況を考慮に入れた新手法を提案する。提案手法では、発現行列を標本群間差異で表現した残差の行列に行列因子化を施すことによって、因子統計量を定義し、これと通常の統計量とを組み合わせて多次元の検定統計量を用意し、経験ベイズ法に基づく検定を適用する。因子統計量は少数の「典型的パターンの含有量」を表現し、これを検定間で情報共有することにより検出力の向上を図ることができる。経験ベイズ法では、帰無仮説・対立仮説に基づく各統計量の分布をデータから推定することにより、保守的なFDR推定を行う。人工データを用いた実験の結果、提案手法が保守的なFDR 推定値によって第一種過誤率をコントロールしつつ、なおかつ既存の検定スコアを超える検出力を示すことがわかった。

B02	Grouped rankingモデル -- Plackett-Luceモデルの一般化とその応用 --
	日野英逸、藤本悠、村田昇
	アイテムの比較やランキングデータが多数与えられたとき, 一つ一つのアイテムが潜在的に持つ価値を決定する問題は統計学, 心理学, 経済学, 政治学などの分野で古くから研究が行われており, 近年では機械学習の分野でも注目されている.$2$つのアイテム同士の比較に対する確率モデルとしてはBradley-Terryモデルが有名であり, Bradley-Terryモデルは全アイテムへの順序付けをモデル化するPlackett-Luceモデルとして一般化がなされている.Plackett-Luceモデルはアイテムへのランキングの確率モデルであり, N個あるアイテム一つ一つに多項分布のパラメタ(item preference parameter)を割り当て, 対応するパラメタ値の大きなアイテムほど好まれやすいとみなすことでアイテムの逐次的な選択のプロセス(ランキング)を説明する確率モデルである. 本研究では, 映画評などの生成プロセスに注目し, Plackett-Luceモデルの一般化としてgrouped rankingモデルを提案する. 提案モデルは, アイテムに対して数段階の評価値をユーザが与えるプロセスをモデル化したものである. 例えば$7$個のアイテム$\{I_1, \dots,I_7\}$が評価対象であるとして, アイテム$\{I_3,I_5\}$は$3$点, アイテム$\{I_2,I_6,I_7\}$は$2$点, アイテム$\{I_1,I_4\}$は$1$点といった情報が各ユーザによる評価結果として得られる. 提案モデルの特徴は, 同一の評価値を得たアイテムグループの中に隠れた順序が存在することを仮定している点である. つまり, 同じ点数を付けられたアイテムへのランキングを隠れ変数として扱い, 隠れ変数に関する周辺化を行ったモデルとなっている. この隠れ変数に関する周辺化は, 同一のグループに属する(同じ評価値を与えられた)アイテムとしてあり得る全ての順序付けを列挙する必要があり, グループ内部のアイテム数が多くなると尤度の計算は困難になる. そこで, 以下のような幾何学的なアプローチでパラメタ推定を行う. まず, 多項分布のパラメタはsimplex上の一点として表現されることに着目する.各ユーザによるアイテム評価データ(グループ化されたランキングデータ)はグループ内部のアイテムへの順序付けが欠損したデータであり, こうしたデータはsimplex上では一点ではなく, 広がりを持った部分多様体として表現される.モデルのパラメタは, 多数の観測データから生成されるsimplex上の部分多様体からのKullback-Leibler divergenceが最小の点として推定される. この推定は,simplex上でe射影とm射影を繰り返すことで効率的に実行できる.提案モデルの応用として, grouped rankingモデルの混合によるユーザの好みの傾向の分析手法及び, 推薦システムへの適用を提案する.$K$個のgrouped rankingモデルの混合を考え, データを用いて混合パラメタ及び$K$クラスそれぞれに対するitem preference parameterを推定する. ユーザの好みの分析手法としては, まず, アイテム毎に$K$種類のparameter値を得ることができるため, それを座標と見なして各アイテムを$K$次元空間に配置する. 次に, ユーザ$u$を指定した時, そのユーザがどのクラスに属するかの事後確率$P(Class=k\|user), k=1,\dots,K$を計算し, これを方向ベクトルとする原点を通る直線として, 各ユーザも$K$次元空間にマッピングすることができる. つまり, アイテムが配置された$K$次元空間に各ユーザに対応する評価軸を表示することができ, ユーザ毎の選好傾向の分析及び可視化が可能となる. 本発表では, 映画の推薦システムとしてよく知られているMovieLensのデータセットに対して提案手法を適用した結果を示す. 一方, 推薦システムへの応用としては, ユーザ同士の類似度にFisherスコアの内積を用いた協調フィルタリングを提案する. まず, クラス事後確率$P(Class=k \| user)$を混合比として$K$個のitem preference parameterを混合することで, ユーザ毎に異なるpreference parameterを求める. このパラメタ値を持つgrouped rankingモデルからアイテム評価データが生成されたとした時のFisherスコアベクトルを計算し, その正規化内積(コサイン)をユーザ同士の類似度として定義する. この類似度を用いた協調フィルタリングを MovieLensデータセットに対して適用したところ, 従来のメモリベースの協調フィルタリングと同等の評価値予測性能が得られた.

B03	最大マージン行列因子化法の確率モデル化と行列データの欠測予測
	古谷允宏、大羽成征、石井信
	行列形の統計データを取り扱うさい、欠測と呼ばれる未知情報の予測が必要な場合がある。例えばユーザーによる商品の評点を集めた行列データにもとづいて商品推薦システムを構築するとき、ユーザによって評価されていない商品の評点を高精度で予測することは重要な課題である。欠測予測の最も基本的な手法のひとつとして、行列の低ランク近似を用いた手法が挙げられる。とくに近年 Srebroら(2005)によって提案されたマージン最大化行列因子化 (Maximum margin matrix factorization; MMMF) 法は、hinge-lossに基づく誤差関数とトレースノルムを用いた正則化項にもとづいて予測対象となる観測が離散値であるときにマージンの大きな予測を実現し、高い汎化性能を示した。本研究で我々は、このMMMF法を確率モデルで表現し直し、因子化行列の事前確率に Automatic RelevanceDetermination (ARD)事前分布を適用した。 ARD事前分布は、因子化された行列の特異値の関数となっているという点でMMMF法におけるトレースノルムに似ているが、各特異値への重みがそれぞれハイパーパラメタとなっている点でトレースノルムと異なっており、その性質の違いは興味深い。また確率モデル化によって、交差検証などによらずエビデンス最大化基準によってハイパーパラメタを決定することができるメリットがある。提案手法の汎化性能を、交差検証によって正則化パラメタを最適に決定した場合のMMMFと比較したところ、人工データおよび実データにおいて明らかな性能向上が見られた。

B04	Bayesianネットワークの多項式制約について
	家藤健司、鈴木譲
	確率変数間の条件付独立性を有向非巡回グラフ(DAG)のD分離性で表現したものがベイジアンネットワーク(BN)である。(排他的な)頂点の集合A,BがCでD分離していれば、対応する確率変数の集合A,BがCのもとで条件付独立でなければならない、そのような極小のDAGがBNである。各確率変数が有限個の値をとると仮定し、その各同時確率を不定文字とみると、複素数体上の多項式環が定義される。条件付独立性は、その極大イデアルとみなすことができる。この研究は2005年前後からBerkeleyのStumfelsを中心にはじまっている。本論文では、特に隠れ変数がある場合について、因果の表現を多項式制約で表現し、Kang-Tianのアルゴリズムより高速になることを示す。

B05	Gauss型Bayesianネットワークのイデアル表現について
	萬山星一、鈴木譲
	確率変数間の条件付独立性を有向非巡回グラフ(DAG)のD分離性で表現したものがベイジアンネットワーク(BN)である。(排他的な)頂点の集合A,BがCでD分離していれば、対応する確率変数の集合A,BがCのもとで条件付独立でなければならない、そのような極小のDAGがBNである。各確率変数が有限個の値をとると仮定し、その各同時確率を不定文字とみると、複素数体上の多項式環が定義される。条件付独立性は、その極大イデアルとみなすことができる。本論文では、特にGauss型Bayesianネットワークの場合のイデアルがどのように表現されるかを検討する。その場合、共分散行列の成分を不定文字とみなした場合の多項式環を扱うことになる。離散分布の場合に成立していても、ガウス分布の場合に証明されていない問題もある。本論文では、Gauss型Bayesianネットワークの研究の現状を整理したうえで、重要な未解決問題を述べる。

B06	情報検索における Product Model と従来のトピックモデルとの比較
	泉谷暁彦、山田武士
	テキストマイニング分野において、近年、Product Model に基づくRestricted Boltzmann Machine が注目を集めている。その一種である RAP(Rate Adapting Poisson) モデルは、単語の出現はトピックの和ではなく積に依存するという考えのもと、単語とトピックの依存関係を学習する非線形な次元圧縮手法と考えることができる。RAPは情報検索などへの応用が注目されている。一方、従来のトピックモデルに基づくPLSI（Probabilistic Latent Semantic Indexing）やLDA（Latent Dirichlet Allocation）は高いトピック抽出性能を示すことが知られ、文書クラスタリングなど、多くの研究で利用されている。本報告では、RAPと既存のトピックモデルを情報検索に適用し、その結果の比較を通じて有効性を検証する。

B07	半教師ありLDAと判別境界分析による異常診断法
	吉田圭吾、矢入健久、町田和雄、塩谷正樹、枡川依士夫
	本発表では、人工衛星のような大規模複雑システムで発生した異常の原因となった変数を同定する異常診断問題を扱う。大規模な人工システムでは、その複雑さから原因変数の特定が難しく、専門家が経験知識に基づき検知ルールが探索的に構築されてきた。他方、機械学習分野では、教師なし学習の枠組みで異常診断問題を扱うことが主流であった。本発表では、不完全な部分はあるがドメイン固有知識は現象を捉える有用な知識であると仮説を立て、ルール化された事前知識と機械学習のアプローチを組み合わせてより効果的な異常診断方法を提案する。具体的には、まずルールを基に異常または正常のラベルを得て、半教師あり判別分析によりデータの分布構造も考慮に入れた異常と正常の決定境界を学習する。非線形な分布に対しては、判別分析をカーネル空間で行うことで対処する。その後、決定境界の法線方向に注目して判別に寄与する変数群を特定し、異常の原因変数とみなす。原因の異なる複数の異常現象が混在している場合は、事前に次元削減によるクラスタリングを行って異常事例を部分集合に分け、各々について分析を行うことで対処した。人工データおよび実データを用いた実験から、異常事例について少数のラベルしか得られない環境下でも、提案手法の妥当性を示すことができた。現実的な応用例として、建築物内で使用される空調設備のエネルギーについて、非効率的な消費状態を引き起こす要因の分析を試みた。

B08	ウェーブレット変換を用いた旅行時間時系列の予測
	柿原雄介、竹内純一、藤田貴司、姚恩建、岡大雅
	ITS(Intelligent Transport System)における旅行時間予測の問題に対し，ウェーブレット変換を応用した予測手法を提案する．旅行時間とは，出発地から目的地に移動するのに要する時間のことである．交通渋滞，環境汚染，交通事故などの問題を解決するために，1950年代にITSが提唱され，1980年代から大規模な国家プロジェクトが先進国で開始された[1]．旅行時間予測はITSのカーナビゲーションシステムに関連している．現在のカーナビはあらかじめ区間毎に決められた走行速度に基づく旅行時間を基準にして経路案内を行っているものが多いが，それでは肝心な渋滞時における経路案内が上手くいかない．そこで，リアルタイムのデータを用いて未来の旅行時間を予測すると，それに対応することでより適切な経路案内が可能となると考えられる．交通データは1日，あるいは1週間単位で周期性を持っており，1日の典型的なパターンを旅行時間パターンと呼ぶ．[3]では，実際の旅行時間から旅行時間パターンの値を引くことで周期性を取り除き，そこからARモデルにあてはめるという予測を行っている．しかし，実測値が旅行時間パターンと大きく乖離する場合は[3]の手法では上手く予測することが出来ない．そこで，[4]では旅行時間パターンを最近の旅行時間の推移に合わせるように動かすことで，予測精度を向上させるという予測法を行っている．ただし，[4]の手法でも捉えることが出来ないような旅行時間パターンとの乖離も起こりうる．そこで，非定常な時系列解析に優れたウェーブレット変換を利用することでその乖離した部分を捉えるというアプローチを試みた．ウェーブレット変換を行うと複数の周波数の時系列を得ることが出来る．本研究では，ウェーブレット変換によって得られた各周波数毎にARモデルを使用して予測を行うという手法を使用する[6]．これらの手法を実装し，実データを用いて精度の比較を行った．その結果，現時刻から1時間先，2時間先の予測について，[4]の手法よりも予測誤差を小さくなることが分かった．参考文献： [1]津川定之，加藤晋 ``ITSの最新動向と課題''， 2005年情報理論的学習理論ワークショップ,2005 [2]刈屋武昭ら，｢経済時系列の統計｣，岩波書店，2003 [3]中田貴之，竹内純一， ``プローブカーデータからの旅行時間予測関数の学習'', 2004年情報理論的学習理論ワークショップ,2004 [4]Takashi Fujita,Enjian Yao,Yasuhiro Sugisaki,Jun-ichi Takeuchi, Kozue Hirabayashi,Takayuki Nakata,``Travel Time Prediction Using Prove-Car Data'',Proceedings of the 13th World Congress and Exhibition on Intelligent Transports Systems,2006 [5]Donald B.Percival and Andrew T.Walden, ``Wavelet Methods forTime Series Analysis'', Cambridge University Press,Cambrigde,2000 [6]O.Renaud，J.-L.Starck and F.Murtagh, ``Wavelet-based Forecasting of Short and Long Memory Time Series'', Universitede Geneve technical report,2002 [7]Daoudi, K., Frakt, A.B. and Willsky, A.S., ``Multiscale autoregressive models and wavelets'', IEEE Transactions on Information Theory, 45(1999) 828-845

B09	分配関数のベーテ近似から定まるグラフ多項式
	渡辺有祐、福水健次
	グラフに基づいた確率的情報処理は誤り訂正符号、音声認識、人工知能、最適化などに幅広く現れる。ここではグラフの頂点が確率変数に対応し、グラフの辺が確率変数間の局所的な依存関係を表している。これらの応用において、グラフで表された確率分布の周辺分布を求めることは、必要不可欠な作業であるが、確率変数の数が多い場合には簡単でない。なぜなら全体の状態数が確率変数の個数に関して指数的に増えてしまうからである。確率分布の周辺分布を求める問題は本質的には分配関数（規格化定数）を求める問題とほぼ同等なので、この研究では簡単のため分配関数の計算について考える。グラフが木(閉路がない）の場合には、分配関数は動的計画法的な手法で効率的に計算できることが知られている。しかし、一般の形状のグラフに対しては, NP-困難な問題であることが知られている。周辺分布を求めるには何らかの近似が必要不可欠である。有効な近似手法としてベーテ近似がある。最近、Chertkov and Chernyak は真の分配関数をベーテ近似の周りで有限和に展開する公式を与えた。以下この公式をループ展開公式と呼ぶ。さらに Watanabe and Fukumizu は彼らとは独立に, 二体相互作用モデルの場合のループ展開公式を異なる変数の取り方で与えた。二体相互作用モデルの場合には我々の表示で考えたほうが見通しが良いと考える。今回の発表では、我々の表示において展開公式をグラフ多項式としてとらえたとき、興味深い性質をもつことを述べる。主な結果は（１）ループ展開を導く恒等式（２）Contraction-Deletion 関係式（３）Generalized Loop の個数の上限などのグラフ論的等式である。

B10	入力空間での距離を考慮した核主成分分析
	藤木淳、赤穂昭太郎
	元来の核主成分分析では特徴空間における距離に基づいた最小二乗推定によって主たる部分空間を求めるが，本稿では入力空間における距離の（近似）に基づいて主たる部分空間を求める枠組みについて説明する．この枠組みは特に事前知識が入力空間の計量として埋め込まれているような場合に有効であると考えられる．

B11	ブースティングによる改悪について
	川喜田雅則、竹内純一
	ブースティングは弱学習機をリスクの意味で改悪する場合があることを示す。ブースティングは弱学習機モデル（ただし統計モデルではない）をモデルの外にシフトすることで改良するアルゴリズムとみなせる。一方でkomaki (1996)はモデルが正しいという仮定の下でのプラグイン分布の最適なシフトを導出している。本発表ではこの最適なシフトとブースティングによるシフトとの関係について以下のことを示す。弱学習機モデルを曲指数型でかつ、真の分布を含むと仮定する。さらにブースティングにストッピングルールは用いないとする。このときkomaki (1996)と類似の議論によって弱学習機をリスクの意味で最適に改良するシフトの向きはｍ埋め込み曲率方向であり、大きさはｍ埋め込み曲率/標本数になる。一方でブースティングによるシフトの期待値はこの最適なシフトをブースティングの構成する判別関数の空間にｍ射影した量と丁度大きさは同じで向きは正反対になる。すなわち平均的にはブースティングはできる限り最適なシフトと丁度正反対に改悪しているといえる。

B12	LSHスキームによる最近傍探索アルゴリズムのいくつかの変形と高性能化
	小林卓夫、清水郁子
	１．はじめに Indykらによって提案されたLocality Sensitive Hashing(LSH) スキーム[Indyk98]によって，実用的に高性能な近似最近傍探索(Approximate Nearest Neighbor Search: ANNS)アルゴリズムが構築できるようになり，これまでにさまざまな研究が行われている．LSHスキームは局所鋭敏なハッシュ関数の族を用いることにより構成される．ベクトルからハッシュコードを計算することは，空間を細かい領域に分割する操作に相当し，バケット法の原理により，特定領域に含まれるプロトタイプのみを探索するため，高速な処理が可能となる．　 LSHスキームの実装においては，実際にどのようなハッシュ関数を用いるか，データ分布に適したパラメータをどのように決定するかなどの課題がある．本研究では，LSHスキームによるANNSアルゴリズムを定式化することにより，いくつかの派生アルゴリズムの類型を導出する．それにより得られた2つの新しいアルゴリズムについて性能の考察を行う．２．LSHによるさまざまなANNSアルゴリズム点q から集合P へのk-最近傍の集合をP(q, k)と表記する．また，点q から半径R 以内のPの点の集合(R-近傍)をP(q; R)と表記する．LSHスキームの定義としてCharikarらによるものを採用する[Charikar02]．すなわち，LSHスキームとは，S上のハッシュ関数の族F があり，HをFの任意の元とするとき，2つの要素x, yに対して　Pr (H(x) = H(y)) = sim(x, y)　　　　　　　　　　　　　　　　(1.0) となることである．ここでsim(x, y)は S上の適当な類似度関数である．この定義に従うと，最近傍探索問題を解くには，与えられたプロトタイプ集合P={pi} とクエリq に対して，　max {Pr(H(q)=H(pi))}　　　　　　　　　　　　　　　　　　　　(1.1) となるpiを求めればよい(本研究では1-ANNSを議論するが，k-ANNS (k>1)に一般化できる)．ハッシュ関数H とは，空間Sを細かい領域に分割する操作に相当する．適切な領域分割は，ハッシュ関数の局所鋭敏性を実現する．領域分割操作として有力な方法の1つは，適当な基準点の集合(constellation points) A={ah} を用意することによりSをボロノイ領域分割することである．このとき，ハッシュ関数Hは ah = A(x, 1) に対して H(x) = h と定義することができる． LSHスキームによるANNSのさまざまなアルゴリズムは，式(1.1)の中の命題　H(q) = H(pi)　　　　　　　　　　　　　　　　　　　　　　　 (1.2) を変形することにより生成できる．いま，基準点の集合A を使用することにより命題(1.2)を (A1)　 A(q, 1)∩A(pi, 1) ≠ φ と置き換える．これを変形することにより，次のようなアルゴリズムの存在が明らかとなる． (A2)　 A(q, kq)∩A(pi, kp) ≠ φ　　　　　　[Kobayashi04] (B1)　 A(q; Rq)∩A(pi; Rp) ≠ φ　　　　　　[岡06] (B1')　pi∈∪P(ah; Rp) (ah∈A(q; Rq)) (B2)　 pi∈∪P(ah, kp) (ah∈A(q, kq)) (A2)の形式は(A1)において，Aに対してそれぞれkq, kp-最近傍を採用することにより一般化したとみなすことができる．kq>1または kp>1とすることにより探索精度の向上および探索時間の短縮を達成できる場合がある．kq≠kp の場合は，データ作成のときのプロトタイプのハッシュコードの登録と，探索のときのクエリのハッシュコードの検索の形が同一でない．このようなケースを「非対称検索」と呼ぶことにする． k-最近傍の代わりにR-近傍を使用することで，(A2)から(B1)の形式が導かれる．これは岡らにより提案されているものと一致する（[岡06]では Rq＝Rp となっているが，理論上Rq≠Rpとすることは可能である）．(B1)には別の記述方法があり，(B1')は(B1)と等価である．そうすると，R-近傍の代わりにk-最近傍を使用することにより，(B2)の形式の存在を直ちに指摘することができる．本研究では，(A2)と(B2)の形式のアルゴリズムをプログラムに実装して性能を考察する．３．具体的なハッシュ関数 LSH型ANNSを実装するためには，局所鋭敏なハッシュ関数の族を具体的に用意しなければならない．本研究では，ANNSの対象を d次元球面空間(Sphere(d)) のユークリッド距離によるものとする．球面空間とは，全てのデータのノルムが1であるような集合のことである．もしSphere(d)上で定義された1つのハッシュ関数H が存在するなら，勝手な直交行列T を用意することにより，H'(x) = H(Tx) であるH' もまたハッシュ関数となる．したがって，具体的なハッシュ関数を1つ用意すれば，(1.0)を満足するハッシュ関数族を用意することができる．ANNSプログラムを高速に行えるためには，ハッシュ関数の計算処理が速く，かつ，良い性質を持つものを使用する必要がある．計算コストが小さいSphere(d)上のハッシュ関数はいろいろ存在する．われわれはさまざまな考察の結果，次の2つの関数を用いることにした．ベクトルを x = (x_1, …,x_d)とし，1≦d'≦d とする． (HF-1)　H(x) = u_1 u_2 … u_d'　ただしu_i = (x_i > 0 ? 1 : 0)． (HF-2)　H(x) = sign(x_k1)k1 sign(x_k2)k2 …sign(x_kd')kd'　ただし，\|x_k1\| > \|x_k2\| > …> \|x_kd'\| HF-1 は，xから{-1,+1}^d'への最近傍によるSphere(d)のボロノイ領域分割操作に他ならない．すなわち，基準点の集合 A={-1, +1}^d' である．これにより(A2)の形式のANNSアルゴリズムを実装する．kq=kp=1の場合については[小林06]の研究がある．本研究では kq=8, kp=1 として性能を考察する．また，HF-2 を用いて(B2)のアルゴリズムを実装する．kq=1とし，kpは可変のパラメータとする．４．実験の方法実験では，人工的にデータを生成したものを使用する．データの生成方法は次の通りである．共分散行列で定義された多次元正規分布の d次元ベクトルをランダムに生成する．それらの大きさを1に正規化する．これにより，Sphere(d)上の分布に偏りがあるベクトル集合を生成できる．もし共分散行列を単位行列とすれば一様ランダムな分布となる．実験では，次元数，プロトタイプ数，分布偏りのファクターをさまざまに変えて，探索精度，探索時間を計測する．また，性能の比較のために，公開されているANNSのプログラムANN Library (1) [Arya 1993]を使用する． (1) http://www.cs.umd.edu/~mount/ANN/ ５．実験結果の概要とまとめ (A2)の形式のアルゴリズムは，非対称検索を行うことにより，kq=kp=1 の場合よりもメモリサイズを小さく出来，かつ，より高速に探索が行えることがわかった．また，次元数が多くなるほど，また，プロトタイプ数が多くなるほど，ANNよりも優位性が高いことが確認された． (B2)の形式のアルゴリズムは，次元数=10の場合，探索精度同一の条件でANNよりも探索時間が約1/5に短縮できた．しかしながら，(B2)は，次元数が大きくなると大量の記憶領域を必要とするという問題がある．本研究ではLSH型のANNSのいくつかの派生アルゴリズムを考案し，プログラムに実装して性能を考察した．今後はさらに詳細な実験を行い検証を進めるとともに，性能向上を図る．参考文献 [Indyk98] Indyk, Piotr.; Motwani, Rajeev. (1998). ", Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality.". Proceedings of 30th Symposium on Theory of Computing. [Charikar02] Charikar, Moses S.. (2002). "Similarity Estimation Techniques from Rounding Algorithms". Proceedings of the 34th Annual ACM Symposium on Theory of Computing 2002. [Kobayashi04] T. Kobayashi and M. Nakagawa, "Pattern recognition by distributed coding: test and analysys of the power space similarity method," Proc. 9th IWFHR, pp.389-394, Oct. 2004. [岡06] 岡敏生, 森川博之, 青山友紀, "高次元Lp空間における近似最近傍点探索の分散処理手法", 信学技報, IN2005-182, pp.153-158, Mar. 2006. [小林06] 小林卓夫, 中川正樹, "分散コーディングによる高次元の最近傍探索," 信学技報, PRMU2006-41, pp.13-18, Jun. 2006. [Arya 1993] S. Arya, D. M. Mount, "Approxiamte Nearest Neighbor Queries in Fixed Dimensions," In Proceedings of the 4th Simposium on Discrete Algorithms(SODA), pp.271-280, Jan. 1993.

B13	情報幾何を用いた Expectation propagation の推定誤差の評価とその性質の解析
	松井秀往、田中利幸
	Expectation propagation (EP) は確率伝播法を拡張した手法である. 確率伝播法は周辺分布をメッセージとして更新を繰り返すが, 変数が連続値をとる場合は分布自体をメッセージとするのは困難である. そこでEPは分布の代わりに, その分布に関する統計量の期待値(モーメント)をメッセージとすることで, 変数が連続値をとる場合にも確率伝播法と同様のアルゴリズムの適用を可能にした手法である. EPではどの統計量の期待値をメッセージとするかはユーザが選ぶことができ, その選び方が計算コストと推定精度に影響を与える. 本研究では統計量の選び方がEPの収束解に与える影響を情報幾何を用いて調べた. まず摂動解析によりEPの収束解の推定誤差を近似した. そして統計量の選び方が異なる2通りのEPに対して, 収束解の推定誤差の近似値を比較することで, EPにおいて統計量を多く選ぶことが必ずしも収束解の精度を向上させるとは限らないことを示した. また数値実験によって, 摂動解析に基づいた議論が有効であることを確認し, 我々が導いた推定誤差の近似を用いてEPの推定値を改善することができるかどうかについても検討した.

B14	確率的なダイナミクスでの連続状態・時間における強化学習の検討
	坂本創哉、田中利幸
	連続的な状態空間を連続的なままで取り扱う強化学習の定式化が銅谷らによりなされている。一方で、実世界の制御問題では、不確実性をどう扱うかが問題となることが少なくない。本研究では、環境に不確実性が存在する場合に銅谷らの定式化を拡張するという問題を議論した。具体的には、状態の時間発展に白色ガウスノイズが含まれている場合について、連続状態・連続時間の強化学習の定式化を検討した。ダイナミクスの白色ガウスノイズの影響は、確率微分方程式にもとづくBellman方程式の導出過程で分散の項が新たに付け加えられるという形で表れ、それに対応して、ノイズがない場合の状態価値関数の更新規則とは違った更新規則が導出された。一方で、分散の項は方策改善に影響しないこともわかった。提案する方法が不確実性の存在する環境下でどのぐらい有効性があるかを既存の研究と比較・検討し、評価を行なった。

B15	スパース構造学習の異常検知への応用
	井手剛
	非常にノイジーな多次元時系列からの異常検知の問題を考える。この問題を、正常時とテスト時のデータの比較の問題として定式化した場合、既存の2標本検定の手法は、ノイズへの対処と異常変数の同定の双方の観点から必ずしも有用ではない。また、データに非定常性が強いと、時系列解析手法の適用も簡単ではない。このような場合、変数同士の近傍グラフに基づいた異常診断手法が有用であることが知られている。この発表では、最近提案された教師なしスパース構造学習の手法を用いて各変数の近傍を学習し、同時に、あてはめられた確率モデルを使って各変数の異常度をスコアリングする手法について議論する。

B16	モンテカルロEMアルゴリズム高速化の一手法
	高畠一哉
	通常のモンテカルロEMアルゴリズムでは，e-ステップでのe-射影を求める際にモンテカルロ法を用いる．モンテカルロ法では推定結果が十分収束するまで大量の擬似データを発生させる必要があるために，計算時間がかかる．EMアルゴリズムではe-ステップとm-ステップを交互に繰り返すことにより目的の解へと収束していくのであるが，その毎回のe-ステップで上記のように時間のかかるモンテカルロ法を用いると，EMアルゴリズム全体が非常に遅いものになってしまう．本発表では各e-ステップでモンテカルロ法の収束を待たずに次のステップに進む方法について考察する．この方法ではモンテカルロ法の収束とEMアルゴリズムの収束が同時並行で行われ，最終的にはモンテカルロ法の推定結果はe-射影に収束し，かつEMアルゴリズムはモデル多様体とデータ多様体間のカルバックダイバージェンスが極小となる解へと収束する．本発表ではこの収束について論じ，また本手法の確率モデルに隠れノード付マルコフネットワークを，モンテカルロ法としてMCMC(Markov chain Monte Carlo)を用いた場合について計算機実験の結果を示す．

B17	曲線整合において相似な部分を見つけるためのサンプリング方法
	岩田一貴、林朗
	Because shapes, line drawings, and characters consist of curve images in two dimensions, curve matching has frequently been used in statistical shape analysis for digital image processing, line drawing interpretation, and character handwriting recognition. When a curve image is represented as an ordered sequence of points, it is called a directed curve image. To reduce computational cost for processing curve images, a curve image is often re-parameterized as a finite set of points sampled from it. Curve matching is used to find correspondences between the sample points of a curve image and those of another curve image by using a dissimilarity measure of curve images. In most cases, the curve images are alike in shape, but different because of various kinds of deformations such as articulation, occlusion, and jaggy.In this presentation, we concentrate on a specific but meaningful partial deformation defined by a similar relation. We present a novel dissimilarity measure to be used in curve matching, together with a way of sampling points from each directed curve image. We show that there is an asymptotic guarantee for finding a part of a directed curve image similar to a part of another one, with their respective sample points.

B18	AICに基づく補正対数尤度
	関野正志、新田克己
	Akaike Information Criterion（AIC）は最尤推定値の対数尤度を補正して、学習モデルの良さを評価する。ここでAICによる補正項は定数項であることから、学習の評価関数として対数尤度にAICによる補正項を加えた補正対数尤度を用いたとしても推定結果は変わらない。そこで入れ子構造を有する学習モデルにおいて、パラメータに対応する最小のモデルに対する補正対数尤度を用いることを考える。入れ子構造を有する学習モデルの例として線形回帰モデルを考えてみる。説明変数の数がMの線形回帰モデルをH(M)と書く。H(M)はH(m)（m < M）を含んでいる。するとH(M)のあるパラメータθにより規定される関数に対して、この関数を実現可能なモデル集合{H(m)}（m = m_eff(θ),...,M）が存在することになる。このとき、パラメータθに対応する最小のモデルはH(m_eff(θ))である。学習の評価関数をH(m_eff(θ))に対する補正対数尤度とすれば、 m_eff(θ)=mとなるパラメータに限定して最大化した補正対数尤度は、モデルH(m)を最尤推定したときのAIC値に対応する。よって、パラメータに対応する最小のモデルに対する補正対数尤度を評価関数として最大化することにより、{H(m)}（m = 1,...,M）からAICによりモデル選択した場合と同様の結果が得られることが期待できる。しかしながら、このように定義される目的関数は一般に不連続になってしまう。例えば線形回帰モデルの場合、m_eff(θ) = m < Mとなるのは、具体的にはある説明変数に対する回帰係数が0になる場合であり、回帰係数が0から少しでもズレるとAICによる補正項の値は離散的に変化してしまう。そこで我々は、AICによる補正項を双曲線正接関数により近似した補正対数尤度を提案する。また、双曲線正接関数のパラメータを徐々に大きくしながら学習していくことにより、適切な学習結果を得る方法についても紹介する。提案法をBOSTON住宅価格データに適用した結果、AICによりモデル選択した場合と同様の結果が得られた。また、補正項に基底関数のパラメータ数を掛けたものを加えた補正対数尤度を最大化する、ニューラルネットの学習法についても紹介する。

B19	The EM Algorithm for Gaussian Mixtures Suffers from Quasi-plateaus Caused by Singularities
	Hyeyoung Park, Tomoko Ozeki
	Geometrical singularities in the parameter space cause strange learning behaviors of hierarchical learning machines. In the gradient descent learning of multilayer perceptrons, it was shown that the well known plateau phenomenon occurs due to singularities. Especially when the optimal solution locates near the singular subspaces, extremely slow dynamics is observed around the optimum, which is called the quasi-plateau phenomenon. In this paper, we show that the quasi-plateau exists in the dynamics of the EM algorithm as well, which is usually regarded as a good alternative to the gradient descent learning for the learning models with latent variables. The slow manifold causing the quasi-plateau gives an explanation on the well known slow convergence properties of the EM algorithm for Gaussian mixtures, which is often observed when the optimal model has large component overlaps. Computational simulations using a simple toy model confirm theoretical analysis.

B20	レプリカ交換モンテカルロ法による位相応答曲線の統計的推定
	中江健、伊庭幸人、青柳富誌生
	近年、神経科学の分野で同期活動が注目されており、同期特性を定量的に測る指標として非線形動力学の分野でよく知られている位相応答曲線がある。また、実際に神経細胞から位相応答曲線を測定した研究がいくつか行われている。本研究では、実験の測定誤差に対する考察を行った結果、従来は縦方向のみに誤差があると思われていたのに反して横方向の誤差があることがわかった。また、縦方向の誤差と横方向の誤差に相関があることも示すことができる。これらの誤差をモデルに取り入れ、ベイズ理論を用いて位相応答曲線の推定値を求めることを試みた。その際、事後分布の期待値をマルコフ連鎖モンテカルロ法を用いて推定を行ったが、事後分布の形が複雑なためうまく推定できないことが分かった。この事後分布に対して、スピン系などで良く使われており効果が実証されているレプリカ交換モンテカルロ法を利用しパラメータやハイパーパラメータの推定を行う。また、この手法と従来法とを神経細胞のモデルから測定したデータに対して適用し性能評価を行う。

B21	グループテストのためのポジティブ識別アルゴリズムと情報幾何
	上原啓明、金森敬文、神保雅一
	グループテストでは，各検体をグループに分け，それぞれのグループにポジティブな検体が含まれるかどうかを観測する．この結果から個々の検体がポジティブかどうかについて推論する．この方法により，大量の検体を効率的に試験できる．グループテストは医学や化学だけでなく情報や通信の分野などにも広く応用されており，近年では，DNA の塩基配列を特定する実験にも用いられている．グループテストでは高速かつ高精度にポジティブな検体を検出することが重要である．ポジティブな検体を検出するために，観測値が得られたもとで，各検体がポジティブである事後確率の周辺分布を計算する必要がある．その計算のために Knill ら (1996) は Markov Chain Monte Carlo (MCMC) 法によるアルゴリズムを提案した．また，Uehara and Jimbo (2007) はベイジアンネットワークの確率伝播法に基づくアルゴリズムを提案した．さらに，Uehara and Jimbo (2008) は concave-convex procedure (CCCP) に基づくアルゴリズムを提案した．上記のようなアルゴリズムを用いる際には，packing design と呼ばれる組合せ構造を pooling design として用いると良いことが経験的に知られていた．本発表では情報幾何を用いて確率伝播法の停留点の誤差を補正する手法を導き，packing design の良さに関して理論的に解析する．pooling design として packing design を用いると，会合数が 1 以下のとき摂動展開による 2 次の誤差項が 0 になり，確率伝播法の停留点と真の事後確率との差（bias) を小さくできることを理論的に示し，シミュレーションにより比較する．

B22	A closed-form estimator of fully visible Boltzmann machines
	平山淳一郎、石井信
	Several researchers have recently investigated alternative estimation methods of discrete Boltzmann machines (BMs) beyond the standard maximum likelihood framework. Examples includes the contrastive divergence by Hinton (2002) or the ratio matching by Hyvarinen (2007), and also a rather classic pseudolikelihood method. These alternative methods can often speedup the computation and/or simplify the implementation, albeit with a loss of statistical efficiency. In the present study, as an extreme to this direction, we show the parameter estimation of fully visible BMs (i.e., no hidden variables) can be achieved even in a closed-form. This is done by recasting the problem in the framework of linear regression. We empirically confirm our estimator can actually approaches the true parameter when the sample size becomes large, although the convergence can be slow, by a simple simulation experiment.

B23	セミパラメトリック統計学に基づく価値関数推定
	植野剛、川鍋一晃、森健、前田新一、石井信
	Q学習やSARSAに代表される価値規範の強化学習において, 価値関数の推定精度は強化学習アルゴリズムの性能を左右する重要な要因である. 本研究ではセミパラメトリック推定の観点から価値関数推定問題を再定式化し，推定関数法により推定量を導出した.推定関数法による推定量は，価値関数のモデルが真の価値関数を表現可能なとき環境のモデルについて未知なままでも漸近的に真の値に収束することが保証される.我々は，この推定関数法に基づく推定量の漸近的な推定分散を解析し，その漸近推定分散を最も小さくする推定関数を導出し，簡単な数値実験によって性能を確かめた.

B24	Approximating Mutual Information by Maximum Likelihood Density Ratio Estimation
	鈴木大慈、杉山将、瀬々潤、金森敬文
	Mutual information is useful in various data processing tasks such as feature selection or independent component analysis. In this work, we propose a new method of approximating mutual information based on maximum likelihood estimation of a ``density ratio'' function. Our method, called Maximum Likelihood Mutual Information (MLMI), has several attractive properties, e.g., density estimation is not involved, it is a single-shot procedure, the global optimal solution can be efficiently computed, and cross-validation is available for model selection. Numerical experiments show that MLMI compares favorably with existing methods. We also give a theoretical justification of our method by nonparametric convergence analysis.

B25	階層木Logistic回帰モデルによる多クラス分類
	岡野原大輔、辻井潤一
	出力が系列や木など構造化されている構造出力に対する学習問題は，出力空間を部品に分解することで、効率的に学習/推論することが可能であった．それに対し，文脈から次の単語を予測する言語モデルなどのタスクでは，クラス種類数は非常に大きい（例：単語種類数）にも関わらず構造化されていないため，推論時の計算量はクラス種類数に比例し，単純な特徴しか利用できず，学習時にデータスパースネスの問題もあった。本研究では、出力空間を出力分布を利用し，各葉に一つのクラス，各ノードにLogistic回帰モデルが付随した二分木のモデルに還元する方法を提案し、先程の問題が自然に解決できることを示す．

B26	位相ランジュバン方程式は神経細胞の記述として有効か？
	太田桂輔、大森敏明、渡部重夫、宮川博義、岡田真人、青西亨
	周期発火状態における神経細胞のダイナミクスは，位相応答曲線と微小入力の積が発火タイミングのシフトの変化量と等しくなるという方程式によって記述されることが知られている．（位相応答曲線とは，微小外部入力によって神経細胞の発火タイミングがどれくらいシフトするかを示す位相の感度特性である.）本研究ではこの方程式を位相ランジュバン方程式を呼ぶ．位相ランジュバン方程式に基づき単一神経細胞のダイナミクスを記述したとき，神経細胞集団の同期現象のメカニズムを明らかにする理論研究が行われてきた．一方，近年，電気生理実験によって神経細胞の位相応答曲線を測定する研究が盛んに行われている.これは実システムである単一細胞のシステムを同定することに相当し，位相ランジュバン方程式の上に構築した同期現象に関する理論研究を実システムに適用する試みである．このように位相ランジュバン方程式は，実システムである単一細胞とその集団の挙動を理解するための理論の間を仲立ちしている．すなわち，理論と実験の間の架け橋となっているのである．従って，位相ランジュバン方程式が神経細胞の挙動を記述するモデルとして有効でなければならない．しかしながら，その有効性を検証した報告は未だに存在しない. 本研究では機械学習における学習モデルの有効性の検証方法と同様の手続きで,ラット海馬CA1錐体細胞を対象として位相ランジュバン方程式の有効性を検証する.まず,(A)周期発火状態にある神経細胞に微小摂動を加え，それによって引き起こされた位相応答を観測する. この入力・出力データセットから位相ランジュバン方程式のパラメータである位相応答曲線とノイズ強度を推定する. 具体的な推定アルゴリズムは以下の通りである．まず周期発火状態にある神経細胞の発火タイミングが微小入力・ノイズでゆらぐという実験の観測過程を位相ランジュバン方程式から解析的に導出する．これはFokker-Planck方程式を第0近似のもと解くことによって得られる．続いて，位相応答曲線は滑らかであるという先見的知識を用いて，ベイズの定理より観測過程の逆仮定を導く．これは位相応答曲線の確率分布を表し，MAP推定により位相応答曲線を推定する．ただし，事前分布に含まれるハイパーパラメータやノイズ強度は周辺化尤度最大化によって推定できる．このパラメータの推定過程は，位相ランジュバン方程式の学習を表し，データセットを説明する学習モデルの最適なパラメータ推定を行ったこと意味する. 続いて(B)(A)で推定したパラメータにより記述された位相ランジュバン方程式を用いて，各発火タイミングが周期外力に引き込まれた定常状態における，位相差の確率分布を予測する. 具体的な予測アルゴリズムは以下の通りである．まず周期摂動によって駆動した神経細胞のダイナミクスを，(A)で推定したパラメータ（位相応答曲線・ノイズ強度）を用いて位相ランジュバン方程式で記述する．この方程式についてFokker-Planck方程式を立て，断熱近似のもと解くことによって位相差の確率分布を導出する．これは学習モデルが学習時に扱わなかった入力に対して正当を導くことができるかどうかを試す，汎化能力の評価に相当する．本研究では推定した位相応答曲線とノイズ強度により記述されたFokker-Planck方程式を解くことによって得られた位相差分布が，実際にラット海馬CA1錐体細胞で観測された位相差のヒストグラムと一致する結果を得た．これは位相ランジュバン方程式が単一神経細胞の記述として有用であることを示している．つまり，位相ランジュバン方程式を基に構築された理論研究が，実システムである神経細胞集団の記述として妥当であることを保証している.

B27	自然状態行動勾配法 (Natural State-action Gradient Learning)
	森村哲郎、内部英治、吉本潤一郎、銅谷賢治
	強化学習問題において、最適方策への収束を遅くしている理由を学習すべきパラメータ空間の構造の性質から考察して、学習プラトーに陥りにくい強化学習法を提案する．ここでは、ユークリッドより自由度の高い空間であるリーマン空間を扱うために、Amari (1998)によって提案された自然勾配法を利用する．目的関数である平均報酬は状態と行動の同時分布に関する即時報酬の平均値であったため、提案法では方策パラメータに関する状態と行動の同時分布のフィッシャー情報行列をリーマン計量行列として自然勾配、自然状態行動勾配（Natural State-action Gradient: NSG）を計算する．そして、その勾配NSGを用いて方策パラメータを逐次更新することで、効率よい方策の最適化を実現する．また、従来の強化学習における自然勾配法であった自然方策勾配法との違いに関しても議論し、数値実験によりシステムの状態数が多い場合に特に有効に働くことを示す．

B28	忘却係数をもつ SVM の解析
	船谷浩之、野村佳彦、池田和司
	本研究では、忘却係数αをもつ SVM の収束性能を1次元の2クラス問題点において解析し、漸近汎化誤差を導出する。また、多次元における実験も行い、1次元における結果が多次元においてどのような知見をもたらすかについても考察する。忘却係数をもつ SVM は、RLS と同様の収束性能、すなわち外乱に対してはロバストになり、定常状態への収束は遅くなる、を示すと考えられるが、SVMは本質的に多次元空間の問題点に対して働くため、その平均的な性能を定量的に評価するのは難しい。そこで本研究では、2クラスの境界は、漸近的、すなわちデータの多い状態では一様な分布になるという考察の元で、2クラスが一様に分布する場合を考え、その漸近的な汎化誤差を解析するものである。結果として、1次元においての汎化誤差が近似的に求まり、多次元化においても汎化誤差のある範囲で1次元の時と同じ傾向を示すことが示された。

B29	能動学習を用いた価値関数近似の効率化
	秋山貴幸、杉山将
	強化学習で即時報酬の観測に大きなコストがかかる状況においては，価値関数近似に用いるサンプルデータ数に大きな制限が存在する．本発表では，少ないサンプルデータから精度良く価値関数を近似するために，価値関数近似に用いるサンプルデータを能動学習に基づいて集める方法論を提案する．具体的には，学習された価値関数と真の価値関数との間の汎化誤差を即時報酬の観測データを用いずに推定し，推定された汎化誤差を小さくするように即時報酬付きのサンプルデータを学習用として集める．提案法により方策学習の速度と精度を高めることができることをシミュレーションで示す．