ポスターセッションA 2009年10月19日(月) 14:30-17:30
|
|
|
P007 |
代理ベイズ学習と隠れマルコフモデルへの応用 [概要][資料][論文] |
テクニカル |
山崎 啓介(東京工業大学) |
|
混合分布や隠れマルコフモデルなどの階層的な構造をもつ学習モデルは情報科学やデータマイニングなどの分野で広く応用されている。これらのモデルはパラメータ空間に特異点をもつ特異モデルとして知られており、近年では代数幾何を用いたベイズ汎化誤差の解析が研究されている。この解析によると、モデルのカルバック情報量が汎化誤差を決める重要な役割を果たしている。ところで、データを異なる空間へ射影しての学習は、特徴抽出や次元削減などで行われる一般的な手法である。尤度計算に時間のかかるモデルでは、この手法によって効率的なモデル設計が期待できる。しかしながら、データ空間が汎化性能に及ぼす影響は明らかになっていない。また、誤差が小さくなるような特徴空間では全てのパラメータを学習できない可能性があるので特徴写像の設計には理論的な評価が必要となる。そこで本研究はベイズ汎化誤差を用いた写像の評価方法を提案する。汎化誤差が保存される特徴空間では完全なパラメータ学習が保証されるため、そのような空間での学習を代理ベイズ学習と定義する。さらに代理ベイズ学習を実現する写像について考察を行う。具体的な例として隠れマルコフモデルを挙げ、データ系列長の打ち切り写像が汎化誤差を保存することを証明する。 |
|
|
P008 |
カーネルマルコフ連鎖モンテカルロ法による測定誤差モデル推定 [概要][資料][論文] |
テクニカル |
赤穂 昭太郎(産業技術総合研究所),伊庭 幸人(統計数理研究所) |
|
Measurement error models are the statistical models in which random noise is added to input variables as well as output variables.We consider the estimation problem of the regression function in a reproducing kernel Hilbert space (RKHS) for the measurement error models.We apply Markov chain Monte Carlo approach to estimate the posterior of the function.To deal with the infinite dimensionality of RKHS, we introduce a trick to exchange the order of sampling of the hidden variable and the fuction. |
|
|
P009 |
一次元正規分布のなす空間への曲線あてはめ [概要][資料][論文] |
テクニカル |
藤木 淳(産業技術総合研究所), 赤穂 昭太郎(産業技術総合研究所) |
|
一次元正規分布の平均と分散の組がが複数個与えられたとき,それらは2次元空間をなすが,この2次元空間の中から1次元構造を抽出するという問題を考える.単純には主成分分析(PCA)などが適用可能と考えられるが,PCA には以下のような問題点がある. PCA は平均と分散の組が従う分布がユークリッド空間中の正規分布であること,つまり一次元正規分布の平均と分散の組が与える計量が一定であることを仮定しているが,一次元正規分布の平均と分散の組が与える自然な計量は,情報幾何学的には一定ではない.また,PCAは構造が線型である場合に有効であるが,非線型構造を持つデータに対しては有効でない.そこで本稿では,一次元正規分布の平均と分散をパラメータとする2次元空間の点列に対して,曲面をあてはめることによって低次元の部分空間を探すことを考える.この低次元部分空間のあてはめは,確率分布と部分空間の距離をダイバージェンスそのものではなく,ダイバージェンスを2次形式で近似したものを用いることによって実現する.この結果はダイバージェンスを最小化することによってe-平坦空間やm-平坦空間をあてはめる手法を含めたダイバージェンスを最小化する曲線あてはめの初期値として利用することが可能である. |
|
|
P017 |
行と列の生成による線形計画ブースティング [概要][資料][論文] |
テクニカル |
畑埜 晃平(九州大学), 瀧本 英二(九州大学) |
|
本稿では,線形計画問題による定式化に基づく新しいブースティング手法を提案する.我々の手法は,問題の最適解がもつ疎性を利用し高速化を図る.準備的な実験において,特に最適解が少数のサポートベクターや仮説からなる場合,本手法は,代表的な線形計画問題ソルバーや LPBoost に対して数倍以上の高速化を達成した. |
|
|
P025 |
Multiple Kernel Learning for Object Classification [概要][資料][論文] |
テクニカル |
中島 伸一((株)ニコン), Binder Alexander(Fraunhofer Institute FIRST), M?ller Christina(Technische Universit?t Berlin), Wojcikiewicz Wojciech(Technische Universit?t Berlin), Marius Kloft(Technische Universit?t Berlin), Brefeld Ulf(Technische Universit?t Berlin), M?ller Klaus-Robert(Technische Universit?t Berlin), Kawanabe Motoaki(Fraunhofer Institute FIRST) |
|
Combining information from various image descriptors has become a standard technique for image classification tasks. Multiple kernel learning (MKL) approaches allow to determine the optimal combination of such similarity matrices the optimal classifier simultaneously. Most MKL approaches employ an L1-regularization on the mixing coefficients to promote sparse solutions; an assumption that is often violated in image applications where descriptors hardly encode orthogonal pieces of information. In this paper, we compare L1-MKL with a recently developed non-sparse MKL to object classification tasks. We show that the non-sparse MKL outperforms both the standard MKL and SVMs with average kernel mixtures on the PASCAL VOC data sets. |
|
|
P026 |
変分ベイズ法を用いた混合ベルヌーイ分布学習の相図について [概要][資料][論文] |
テクニカル |
梶 大介(東京工業大学大), 渡辺 澄夫(東京工業大学) |
|
平均場近似を用いることで,事後分布の計算をEMアルゴリズムと同程度にすることが可能になる変分ベイズ法は,混合分布モデルや隠れマルコフモデルなどの隠れ変数をもつ確率モデルに適用され,音声認識や画像処理,遺伝子解析など様々な分野でその有効性が示されている.一方,変分ベイズ法を用いた指数型分布族の混合分布の学習ではハイパーパラメータにより,A)事後分布が確率モデルのすべてのコンポーネントを使って表現するB)冗長なコンポーネントを用いず,より少ないコンポーネントで表現する場合に分かれる”相転移”現象が起こることが示されている.本発表では,変分ベイズ法の相転移構造の検討に潜在クラス解析としてレコメンデーションシステムなどの応用に広く用いられている混合ベルヌーイ分布を用いる.本分布は応用上有効なだけではなく,ベルヌーイ分布の事前分布が1つのハイパーパラメータで記述できるため,解析が行い易いという利点をもつ.実験では,上述の混合ベルヌーイ分布を用いて,混合比とベルヌーイ分布のハイパーパラメータを変化させた場合の変分ベイズ法により得られる予測分布の変化を調べ,その相図を示した.相図から,相転移点は混合比・ベルヌーイ分布の両ハイパーパラメータに依存して変化し,2つの状態A),B)の間には移行過程に相当する領域が存在することが分かった.また,ハイパーパラメータを変化させ,状態A)から状態B)に移行する場合,移行過程での予測分布の挙動は,変化するハイパーパラメータの領域(軌跡)により異なることが分かる.さらに,本相図は上述のように各ハイパーパラメータにおける挙動を示すことで,クラスタ解析に応用する際の“クラスタリングの粒度設定”など,ハイパーパラメータの設計指針を与えるものとなる. |
|
|
P039 |
領域ベースの隠れ変数を用いた決定論的画像領域分割 [概要][資料][論文] |
テクニカル |
三好 誠司(関西大学), , 岡田 真人(東大,理研) |
|
In image processing via Bayesian inference based on MRF model,introduction of hidden variables is effective to preserve edges in the image.We derive the image segmentation algorithm based on the Potts-spin-type region-based hidden variables and the variational method.The algorithm is applied to both the synthesized images contaminated by Gaussian noise and the natural image.Experimental results show its effectiveness and robustness. |
|
|
P040 |
共起成分の含意関係に基づくデータマイニングの実験と考察 [概要][資料][論文] |
テクニカル |
二木 克也(北海道大学), 湊 真一(北海道大学) |
|
著者らが以前に提案した「共起成分の含意関係」を検出する手法を用いることで,これまで発見されていなかった,何らかの興味深い関係が抽出できる可能性があるが,この手法では,共起成分の包含関係にわずかでも破れがあれば,どんなに強く共起成分の含意関係に準ずる性質をもつ関係でも抽出していなかった.本稿では,例外を許容した共起成分の含意関係を抽出する手法を提案し,抽出した結果が持つ意味と有用性を考察する. |
|
|
P044 |
High-Precision Speaker Verification by Adaptive Weighting of Local MFCC Features [概要][資料][論文] |
テクニカル |
坂井 俊亮(筑波大学), 亀山啓輔(筑波大学) |
|
In recent years, studies of speaker verification have been conducted as a means for biometric person authentication. However, because of the overall verification performance, only few actual implementations exist. This paper focuses on the text-independent speaker verification system. We propose an effective method for speaker verification by adaptive weighting of local Mel Frequency Cepstrum Coefficient (MFCC) features. For a given set of registered persons, an optimal linear weightings of multiple speech frames are searched based on the likelihood ratio error, generalizing the scheme of the conventional use of Δ parameters. It was observed that using the proposed adaptive parameters, superior verification performance was achieved compared with the cases using conventional features. |
|
|
P048 |
オンライン学習可能な多重スケールでの時間発展を考慮したトピックモデル [概要][資料][論文] |
テクニカル |
岩田 具治(日本電信電話株式会社), 山田 武士(日本電信電話株式会社), 櫻井 保志(日本電信電話株式会社), 上田 修功(日本電信電話株式会社) |
|
We propose an online topic model for sequentially analyzing the time evolution of topics in document collections. Topics naturally evolve with multiple timescales. For example, some words may be used consistently over one hundred years, while other words emerge and disappear over periods of a few days. Thus, in the proposed model, current topic-specific distributions over words are assumed to be generated based on the multiscale word distributions of the previous epoch. Considering both the long-timescale dependency as well as the short-timescale dependency yields a more robust model. We derive efficient online inference procedures based on a stochastic EM algorithm, in which the model is sequentially updated using newly obtained data; this means that past data are not required to make the inference. We demonstrate the effectiveness of the proposed method in terms of predictive performance and computational efficiency by examining collections of real documents with timestamps. |
|
|
P051 |
Observational Reinforcement Learning [概要][資料][論文] |
テクニカル |
Simm Jaak(東京工業大学), 杉山 将(東京工業大学), 八谷 大岳(東京工業大学) |
|
We introduce an extension to standard reinforcement learning setting called observational RL (ORL) where additional observational information is available to the agent. This allows the agent to learn the system dynamics with fewer data samples, which is an essential feature for practical applications of RL methods.We show that ORL can be formulated as a multitask learning problem.A similarity-based and a component-based multitask learning methods are proposed for learning the transition probabilities of the ORL problem.The effectiveness of the proposed methods is evaluated in experiments of grid world. |
|
|
P055 |
Matching between Piecewise Similar Curve Images [概要][資料][論文] |
テクニカル |
岩田 一貴(広島市立大学), 林 朗(広島市立大学) |
|
Matching between curve images in two dimensions is frequently performed in shape analysis.We concentrate on a specific but meaningful deformation of curve images defined by a piecewise similar relation.We present a curve matching algorithm for dealing with the deformation, together with a way of sampling points from each curve image.Our algorithm is unique in that it considers not only matching between curve images, but also sampling points.Using several experiments, we explain how to implement the algorithm for digital images of line drawings, and show that it is effective even when the number of sample points is relatively small. |
|
|
P062 |
時系列パターンの多数決型識別器の設計 [概要][資料][論文] |
テクニカル |
福冨 正弘(九州大学), 小川原 光一(九州大学), 馮 尭楷(九州大学), 内田 誠一(九州大学) |
|
本論文では,時系列パターンの認識手法として,パターンの各サンプル点(各時刻)ごとに認識すなわちクラスラベルの割り当てを行い,クラスラベルの多数決によりクラスを確定する手法を検討する.本手法では,特定のサンプル点同士をできるだけ同じクラスにラベリングするという相互制約を導入する.相互制約により,クラスラベルの割り当て方を制御でき,自由度の高い識別が可能となる.クラスラベルの割り当ての組合せは総サンプル点数に対し指数関数的に増加する.そこで,グラフの最小切断アルゴリズムいわゆるグラフカットを用い,総サンプル点数に対して多項式時間で計算を行う.オンライン文字データを対象とした認識実験を行い,その定性的,定量的解析を通して本手法の有効性を検証した. |
|
|
P066 |
変分ベイズ法における確定的アニーリングとハイパーパラメータの部分最適化について [概要][資料][論文] |
テクニカル |
永田 賢二(東京大学), 片平 健太郎(科学技術振興機構), 岡ノ谷 一夫(科学技術振興機構, 独立行政法人理化学研究所), 岡田 真人(東京大学大学院) |
|
混合正規分布や隠れマルコフモデルなどの,階層構造をもつ確率モデルにおいて,ベイズ学習が,最尤推定法や事後確率最大化法よりも,汎化性能に優れることが知られている.ベイズ学習を計算する際に,複雑な多重積分を計算することが必要になり,この操作の困難さから,様々な近似手法が提案されている.その中でも,変分ベイズ(VB)法は,潜在変数を導入することで,Expectation Maximization (EM)アルゴリズムと同様の反復計算により事後分布についての積分計算ができ,その計算量の少なさから,広く用いられている.また,理論的にも,確率的複雑さの漸近挙動を解析することで,VB法がベイズ学習の良い近似を与えることが明らかにされている. しかしながら,VB法のアルゴリズムは勾配型であるため,得られた解が局所最適解にトラップされてしまうといった問題がある.この問題に対して,変分ベイズ法における確定的アニーリングや量子アニーリングが提案され,その有効性が確認されている.これらの手法では,最適化の対象となる事後分布に温度パラメータを導入し,このパラメータを用いてアニーリングスケジュールを制御することで局所最適解の問題に対処している. 一方で,事後分布への温度パラメータの導入については,変分ベイズ法のアニーリングに限らず,様々な問題で用いられている.事後分布は尤度関数と事前分布の積により構成されているため,部分的に温度パラメータを導入するアプローチが提案されている.その一例として,Haraらは,LDPC符号における復号のダイナミクスを観測する際に,事前確率に温度パラメータを導入することで交換モンテカルロ法を実装している.また,ベイズ学習において周辺尤度を計算する際に,事後分布の尤度関数の部分にのみ温度パラメータを導入する方法が提案されている. そこで本研究では,変分ベイズ法において,尤度関数と事前分布の2つの項にそれぞれ温度パラメータを導入し,その枠組みから,事前分布のハイパーパラメータの部分最適化を組み合わせた確定的アニーリング法を提案する.また,提案手法を混合正規分布モデルに適用し,人工データと実データの2種類のデータセットに対して,従来の確定的アニーリングVB法やアニーリングを用いないVB法と比べて,提案手法が有効に働くことを示す. |
|
|
P071 |
Radon変換を介した医用画像再構成における画像修復 [概要][資料][論文] |
テクニカル |
庄野 逸(電気通信大学), 岡田 真人(東京大学大学院) |
|
医療などで用いられる断層画像は,複数方向からの投影を行ない, 得られたデータから元の空間での信号強度を推定することによって得られる物体断面画像である.このような物体のある断面における物理量の分布を画像化して表示する方法を画像再構成問題と呼ぶ. この画像再構成問題を計算機を通して解く場合,これは Computed Tomography (CT) と呼ばれ,現在では物体の内部断面を画像として得るために良く用いられる.CT 画像の例としては X 線 CT 画像や PET 画像などが挙げられる.これらの画像再構成の問題はRadon 変換と呼ばれる投影変換を元に構成されている.本研究では, Radon 変換を生成系として持つような系における画像再構成問題を Bayes 推定の枠組みで定式化を行い,確率的画像修復の考え方を適用することで得られる結果に関して言及する. |
|
|
P073 |
クラウドコンピューティングを用いた粒子フィルタのためのMapReduceアルゴリズム [概要][資料][論文] |
テクニカル |
石垣 司(産業技術総合研究所), 中村 和幸(明治大学), 本村 陽一(産業技術総合研究所) |
|
粒子フィルタは潜在変数の確率分布を推定するための時系列フィルタの一つであり、その汎用性から様々な分野で応用されている。粒子と呼ばれる確率分布からの実現値によりその分布形を近似するため非線形・非ガウスモデルに対しても潜在変数の推定が可能となるが、大量の粒子を使用する場合は計算コストの観点から並列分散処理によりアルゴリズムを実装する必要がある。そのため、大量の粒子を使用するためには並列分散処理の知識とクラスタ計算機が必須であり、それらを持たない研究者や実務家が大量の粒子を使用する大規模モデルに対して粒子フィルタを適用するには限界があった。しかし近年、ユーザが簡便に並列分散処理を開発・実行できるMapReduceと呼ばれるプログラミングモデルが開発され、かつ計算パワーはネットワークを介して提供されるクラウドコンピューティングサービスが開始されている。そこで本論ではMapReduceの枠組みで粒子フィルタを実装するアルゴリズムを提案し、クラウドコンピューティングサービスを用いて、粒子数、クラスタ数と計算時間の関係の評価実験を行った。その結果、提案する枠組みで十分な量の粒子数が簡易に使用可能となることを実験的に示す。 |
|
|
P076 |
Virtual Concept Drift環境におけるRBFNNのモデル選択 [概要][資料][論文] |
テクニカル |
山内 康一郎(中部大学) |
|
学習サンプル(x,y)の事前確率分布p(x)が時刻とともに変化する環境のことをVirtual Concept Driftと呼ぶことがある。このような環境で多層パーセプトロンやRBFNNのオンライン学習を実行するとCatastrophic forgettingを招くことが知られている。これを防ぐために、これまでに多数の逐次学習アルゴリズムが考案されてきたが、このような学習環境におけるモデル選択法を理論的に考察する研究はあまり多くない。 本研究では、このような環境を共変量シフト環境の一種ととらえてモデル化し、これに適したモデル選択規準を導出することを目指した。具体的にはStudent-t分布を用いて将来提示されるサンプルの分布を予測し、これに基づいて既に与えられた学習サンプルの重みを算出する。ここから既に提案されている共変量シフト環境下でのモデル選択基準を適用して、RBFNNの中間ユニット数等を決定する。 ベンチマークテストを通して本手法が有効に働くかどうかを検証した。 |
|
|
P078 |
機械学習を用いたスプログ検出におけるHTML構造の類似性の利用 [概要][資料][論文] |
テクニカル |
片山 太一(筑波大学), 芳中 隆幸(東京電機大学), 宇津呂 武仁(筑波大学), 河田 容英((株)ナビックス), 福原 知宏(東京大学) |
|
本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム(スパムブログ,スプログ)のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML構造の類似性が効果的であることを示す.具体的には,ブログのHTMLファイルにおけるDOMツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として,SVMを用いたスプログ検出を行った結果において,スプログ検出の性能が向上することを示す. |
|
|
P083 |
ベーテ自由エネルギーとLoopy belief Propagation に現れるグラフ のゼータ関数について [概要][資料][論文] |
テクニカル |
渡辺 有祐(総合研究大学院大学), 福水 健次(統計数理研究所, 総合研究大学院大学) |
|
この論文ではLoopy Belief Propagation (LBP) の性質を解析する新しい方法を提示する。ベーテ自由エネルギーのヘッシアンと多変数のグラフゼータ関数を関係付ける新しい公式が重要な役割を果たす。本論文では主にバイナリ、ペアワイズのモデルに関してこの公式を応用する。まず、ベーテ自由エネルギーのヘッシアンが正定値になる条件を議論する。それにより複数の閉路を含むグラフに関してはベーテ自由エネルギーが凸でないことを示す。さらに、この公式によりLBP の固定点の安定性とベーテ自由エネルギーの極小であることの関係を明確にする。さらにLBP の固定点の一意性を議論する新しい方法を提示する。最後に、有限状態モデルやガウスモデルを含むような広いクラスのモデル対する公式の拡張について述べる。 |
|
|
P089 |
劣モジュラカットとその応用 [概要][資料][論文] |
テクニカル |
河原 吉伸(大阪大学), 永野 清仁(東京工業大学), 津田 宏治(産業技術総合研究所), Bilmes Jeff(Washington University) |
|
特徴選択や能動学習など,機械学習における重要な問題の中には,劣モジュラ関数最大化問題として定式化する事ができるものが多く存在する.従来このような問題においては,貪欲法が主に用いられてきたが,問題によっては,より厳密な最適解に近い解が求められる場合も多い.従って本稿では,カッティング・プレイン法に基づき,劣モジュラ関数最大化を解くためのアルゴリズムを提案する.本アルゴリズムは,線形2値計画問題を反復的に解く事により計算可能である.この目的のため本稿では,関数の劣モジュラ性を用いて,現在の最良解よりも評価関数の値が改善されない実行領域を効率的に排除する,劣モジュラカットという切断面(最適値に関する線形な下限)を導出する(従って本稿では,導出するアルゴリズムを,劣モジュラカット・アルゴリズムと呼ぶ).更に本稿では,従来法の一つの考え方を応用して,最適値に関する上限を導出する方法についても述べる.これにより,現在の最良値の最適性を評価する事が可能となり,事前に与えた$\epsilon>0$に対する$\epsilon$-近似解を計算する事が可能となる.提案するアルゴリズムは,人工データ,及び,実データを用いて,その有用性が検証される. |
|
|
P092 |
重み付きカーネルマシンの多次元パス追跡法に関する一考察 [概要][資料][論文] |
テクニカル |
烏山 昌幸(名古屋工業大学大学院), 原田 尚幸(名古屋工業大学大学院), 竹内 一郎(名古屋工業大学大学院) |
|
本稿では,重み付きカーネルマシンの多次元パス追跡法を提案する.パターン認識において訓練データからモデルを推定する場合に,各データ点にそれぞれの重要度や信頼度を反映した重みを持たせたいことがある.具体的には,分散を考慮して外れ値と思われるデータ点への重みを小さくしたり,時系列なデータにおいて新しいデータ点ほど重みを大きくするといったことがある.カーネルマシンにおいてはデータ点ごとに個別の正則化パラメータを設定して学習することで,重みを考慮したモデルの獲得を行うことができる.こういった重み付きモデルでは重みの振り分けを様々に変化させて,それぞれに最適なモデルを求めたい場合がある.例えば,適応的に重みを定めたい場合や,オンラインに重みを変化させたい場合などが挙げられる.単一の正則化パラメータを用いたモデルでは正則化パスと呼ばれる方法で,正則化パラメータの変化に対するモデルの変化を解析的に導出できる.これは最適化においてパス追跡と呼ばれる方法を利用しており,効率的なモデル選択を可能にする手法として知られている.ただし,正則化パラメータがデータ点ごとに存在するモデルについては,従来法では想定されておらず扱うことができない.今回のように個別の正則化パラメータを導入した場合には,各データ点ごとの正則化パラメータが同時に変化することを考える必要がある.そこで,多変数に対するパス追跡を導入することで各データ点ごとの重みを同時に動かした時のモデルの変化を効率的に追跡する方法を提案する.提案法では多次元の正則化パラメータ空間上の任意の方向への区分線形パスを導出することで,重みの変化に対するモデルの変化の計算を可能にしている.計算機実験では,提案法が従来法に比べて効率良くモデルを更新できることを確認しアルゴリズムの挙動を考察した. |
|
|
P099 |
ベイズ確率文脈自由文法のための高速構文木サンプリング法 [概要][資料][論文] |
テクニカル |
武井俊祐(東京大学大学院), 牧野貴樹(東京大学), 高木利久(東京大学) |
|
本研究はベイズ拡張された確率文脈自由文法(PCFG)に対する効率的なサンプリングアルゴリズムを構築することで,高速かつ高精度な文法学習を可能にすることを目的とする.PCFGは計算機科学分野だけでなくバイオインフォマティクス分野など幅広い分野で活用されている一般性の高い確率モデルであり,そのベイズモデルについても期待が高い.近年,変分ベイズ法のような近似に基づく高速パラメータ推定手法が提案され,盛んに研究されているものの,高精度な推定を必要とする場合は依然として計算コストの高いMCMCのような手法が必要となる.Bayesian PCFGに対するMCMC法を構成するためには,単純にはGibbs Samplerのような手法を適用することが考えられるが, PCFGのパラメータ間に強い相互依存があり,またパラメータ空間も大きいことから,Gibbs Samplerでは収束が遅く効率が悪い.これに対しJohnsonらは構文木の確率に応じた構文木のみのサンプリングによるMetropolis-Hastings Samplerを構築し,より効率的なサンプリング手法を提案している.しかしJohnsonらの手法は依然として計算コストが高く,大規模データへの適用は困難を伴う.そこで我々は,ベイズ拡張された隠れマルコフモデルのための高速なMCMC法であるBeam Sampling法をPCFGに応用することでJohnsonらの手法を高速化する.隠れマルコフモデルにおけるBeam Sampling法は,動的計画法とSlice Sampling法を利用することにより,ベイズ隠れマルコフモデルの高速なパラメータ推定を可能にする手法であるが,これをそのままの形式でPCFGの枠組みへ応用しようとするとき,HMMにおいて各時刻において割り当てられている補助変数をPCFGで利用される内側確率表に直接対応付けることができず,アルゴリズムが構築できない.本論文ではこれを内側確率表上の分割位置に補助変数を対応付ける形式としてSplit Position Slice Samplerという手法を新たに提案することでBeam Samplerの枠組みを拡張し,これをJohnsonらの手法へ組み込むことによって高い精度を保ったままBayesian PCFGのパラメータ推定を高速に行うMCMC法を構築する. |
|
|
P104 |
VC Theory and a Concentration Inequality for Sums of Eigenvalues of Wishart Matrix [概要][資料][論文] |
テクニカル |
上野 康隆(東北大学大学院), 赤間 陽二(東北大学大学院) |
|
Let d-dimensional column vectors x_1,...,x_n be an i.i.d. sample drawn from the d-dimensional standard normal distribution. Let S be \sum_{i=1}^n x_i x_i^\top / n. The left and the right tail probabilities for the sum of any k eigenvalues of S is uniformly evaluated non-asymptotically from above, by using upper bound of the VC dimensions of principal component analysis and by using a Vapnik's theorem of generalization errors in empirical risk minimization. For the right tail probability, we represent a subspace with the kernel of a linear mapping and then employ a concentration inequality for the chi square distributions. |
|
|
P013 |
ベイズ推定と細胞の運命決定ダイナミクス [概要][資料] |
ディスカッション |
小林 徹也(東京大学) |
|
細胞はすべての生命現象の基本単位の一つであり、その組み合わせによって脳から発生現象まで様々な高次機能が実現されている。しかしそれら高次機能を実現する素子である細胞の振る舞いが非常にゆらいでいることは古くから指摘されており、主に脳科学の分野ではゆらぐ神経活動の情報処理的な側面が理論的に研究されてきた。 しかしこの「ゆらぐ不安定な素子を用いてどのように安定な高次機能を実現するのか?」という問題は脳の機能に限定されず、様々な細胞・発生現象に共通する問題である。例えば細胞は、代謝制御や発生などの過程において、非常にゆらぐ環境に応じて適切に自らの代謝状態や分化状態の選択、そして細胞死などを実行する。 本研究では、ゆらぐ環境から情報を取り出し運命決定をする細胞の挙動をベイズ推定の枠組みを用いて統計的にモデル化し、そこから得られるダイナミクスを実際の生体内で見られる反応系と比較することによって、細胞内のどのようなダイナミクスが、統計的情報処理的の観点から適切な機能を持ちうるかを検証する。 |
|
|
P021 |
改良型双対尺度法を用いた医薬学データの数量化 [概要][資料] |
ディスカッション |
山崎 広之(大阪大学), 岡本 晃典(大阪大学), 日高 伸之介(大阪大学大学院), 川下 理日人(大阪大学大学院), 高木 達也(大阪大学大学院) |
|
現在の創薬化学において、前臨床試験及び臨床試験での毒性発現を理由とする新規医薬品候補の開発中止が増加している。In silicoでは、定量的構造活性相関(QSAR : Quantitative Structure-Activity Relationship )解析によって、既存の化合物と構造的に類似した化合物の毒性予測が行われている。しかし、例えば抗菌スペクトルの最小発育阻止濃度の予測など、得られるデータによりQSAR解析が非常に困難な場合がある。最小発育阻止濃度は、ある値未満、ある値以上と評価されることがあり、このような数値の意味を含む質的データ、つまり順序カテゴリーデータに対するQSAR解析は困難とされており、その解決に向けた様々な試みが行われてきた。今回、我々は数量化を行うことによりQSAR解析を簡便にかつ正確に行うことができ、新規医薬品候補の早期における毒性予測に貢献できるのではないかと考えた。外的基準のない順序カテゴリーデータの数量化の代表例として、双対尺度法が挙げられる。双対尺度法は西里静彦が1982年に発表した分析法であり、クロス集計表で表される非計量データを数量化し、解釈を容易にすることを目的としている。しかしながら双対尺度法による数量化は、隣り合ったカテゴリー間の境界値を得て、それらに基づき各データを数量化するため、解析されるデータによっては、全データ間の相対的な関係が妥当に保たれることが保証されない。そこで我々は双対尺度法を改良し、順序カテゴリーデータに対して解析を行うことによって、カテゴリー間の境界値ではなく、カテゴリー値を得られるようにし、相対的な関係が保たれる数量化を可能にした。これにより従来の双対尺度法よりもQSAR解析に適切な数量化を行うことができるといえる。また適切な順序カテゴリー化の基準がない場合、双対尺度法に基づいた最適化を行うことにより、適切な順序カテゴリー化を行うことを可能とした。従って、改良型双対尺度法にて数量化を行った際、定義したカテゴリーの間隔尺度を得ることも可能であり、既存の順序カテゴリー化の基準が適切であるかといった解析も行うことが可能である。我々はこの改良型双対尺度法の有効性を示すため、いくつかの抗菌剤の持つ抗菌スペクトルデータに適用し、解析を行い、良好な結果が得られた。詳細は発表にて行いたいと思う。 |
|
|
P024 |
アイテム集合付きグラフからの協調関係抽出 [概要][資料] |
ディスカッション |
福崎 睦美(お茶の水女子大学), 鹿島 久嗣(東京大学), 瀬々 潤(お茶の水女子大学) |
|
データマイニングで頻繁に研究される問題として,頻出アイテム集合の列挙がある.また,近年この頻出アイテム集合マイニングの手法を応用した,頻出グラフマイニングが発展してきている.これまで,アイテム集合とグラフはほとんどの場合独立して解析されており,これらのデータを統合して解析する研究は少ない.しかし,アイテム集合の解析とグラフの解析を融合させ,生物的なデータやマーケティングの情報に適用することで有意な結果を得ることができると考えられる.本研究では,重み無しグラフの頂点にアイテム集合が付与してある構造を考える.このようなグラフ構造は,実データに頻繁に現れる.たとえば,創薬情報であれば遺伝子間の関係を示す遺伝子ネットワーク(ノードが遺伝子,辺が遺伝子間関係)に対し,各遺伝子がどの薬に反応するかを付与したグラフである.他にも,SNS であれば頂点に参加者,辺を友人関係とし,参加者が購入した商品を付与したものである.本論文では,この様なグラフからアイテムを共有していながら全体としては非連結である複数の部分グラフを列挙する手法,RelatiOn Between Items and Network (ROBIN) を提案する.この手法により,遺伝子ネットワークからは,既存の知識では連結していないが,実は協調して働く可能性のある遺伝子ネットワーク,つまり,副作用の可能性を示す遺伝子ネットワークを調査することが可能である.本研究では,このアルゴリズムを用いて酵母の実データを解析し,でんぷんとショ糖の代謝経路が,ヒートショックストレス下でピルビン酸代謝と協調して働くことを発見した.さらに,これらのパスウェイは酵母の定常期にクエン酸回路と協調することが観測された.また,別の実データとしてノードを論文,著者をそのアイテムとし,リファレンスのある論文間に辺を張った共著者ネットワークを用いた解析も行った.その結果,Rajeev RastogiとAbraham Silberschatzが,異なる3分野(マルチデータベース, ビデオ・オン・デマンド ストレージ,メインメモリデータベース)で共同研究を行っていることがわかった. |
|
|
P032 |
ベイズ推定を用いない曲指数型分布族の推定量の改善 [概要][資料] |
ディスカッション |
川喜田 雅則(九州大学), 竹内 純一(九州大学) |
|
曲指数型分布族の一次有効推定量の改善の方法について提案する。今真の分布がある曲指数型分布族Mに含まれると仮定する。そしてMのパラメータの一次有効推定量の良さを、そのプラグイン分布と真の分布の間のKullback-Leibler情報量で評価する。このときKomaki (1996)はプラグイン分布をその点からm埋め込み曲率方向へm埋め込み曲率に応じた程度シフトすることで、二次の漸近論の意味で常に最善の改良ができることを示した。さらにKomaki (1996)ではベイズ推定は事前分布に依らずに常にこの改良を漸近的に達成することを示した。 しかし近年需要が高まっている高次元データについては、特殊な仮定や構造を入れずにベイズ推定を自由に行うことは難しい。本発表ではベイズ推定を用いずに上記の改良と平均的に等価、あるいは少なくとも部分的に等価な改良を得る方法を提案する。ここで局所指数型分布族Mが埋め込まれている外側の指数型分布族をEと書く。本発表では鍵となる事実として「M上の一次有効プラグイン分布からEの一次有効プラグイン分布へのシフトの代わりにM上のプラグイン分布を起点にeta座標系について正反対のシフトの期待値がベイズ推定による最適なシフトのEへの射影と等しい」ということを示す。これによりベイズ推定を行うことなく推定量の最適な改善を部分的に達成できる。またEの基底にMの埋め込み曲率方向をすべて含めればベイズ推定と期待値的に完全に等しい改善が得られると考えられる。これらの方法の性能を高次元の場合についてシミュレーションでも確認する。また上記の話題の非負値測度の空間への拡張についても議論する。 |
|
|
P038 |
構造的欠損値を伴う多次元次系列データのための制約付き共埋め込み法 [概要][資料] |
ディスカッション |
矢入 健久(東京大学) |
|
近年、様々な分野で超高次元の時系列データに遭遇する機会が増えてきた。次元削減はそのようなデータに対して有効な手段であるが、適用方法としては大きく二つ考えられる。一つは、各時刻の観測ベクトルをサンプル点とみなして次元削減を行い、システムの本質的な低次元状態空間を得ることである。もう一つは、各変数の時系列をサンプル点として次元削減を行い、変数間の関係を表す低次元表現を得ることである。本研究ではこの2つを同時に行う共埋め込み問題を考える。データ欠損の無い理想的条件では特異値分解が最も基本的な手法である。また、行・列ベクトルそれぞれに任意の線形・非線形次元削減を独立に適用する素朴な方法もある。しかし、本研究ではデータの中に大規模かつ構造的に欠損値が含まれる状況を想定する。実際、実環境におけるセンサーシステムでは、多くの変数が大部分の時刻において欠損し、特定のモードにあるときのみ値を取るように構成されていることも多い。その場合、上述の素朴な方法は利用できず、また、EMアルゴリズム等によって欠損値を復元しつつ次元削減を行うことも現実的ではない。そこで、本研究では、Verbeekらによって提案された「局所モデルアラインメントによる非線形CCA」を応用し、構造的な欠損値を大規模に含む多次元時系列データの共埋め込みのための、局所観測アラインメント法を提案する。提案手法の概要は次の通りである。まず、各時刻の欠損値を除いた観測ベクトルを、全観測変数群の低次元表現の断片的な「局所マップ」(言わば、パズルのピース)とみなす。そして、変数を共有する断片同士ができるだけ整合するような線形変換を各時刻ごとに求める。これにより各変数の大局的な座標が求まる。また、各線形変換はその時刻におけるシステムの状態を表す欠損の無いデータであり、これらを再度次元削減することによって、各時刻のシステムの低次元状態が得られる。提案手法では、状態の時間的連続性、および、事前に与えられた一部の変数あるいは状態に関するラベル情報という制約を取り込む拡張も行われている。最終的に、構造的欠損値を含む多次元時系列データの共埋め込み問題は一般化固有値問題あるいは連立一次方程式に帰着される。実験では、移動ロボットによる外部物体観測履歴データに適用し、自己位置・外部物体位置同時推定を行った結果を紹介する予定である。 |
|
|
P047 |
混合Bernoulli分布に基づく変分Bayes法による連想記憶モデルの解析 [概要][資料] |
ディスカッション |
荒木 佑季(早稲田大学), 永田 賢二(東京大学), 岡田 真人(東京大学大学院), 井上 真郷(早稲田大学) |
|
予め埋め込んだ記憶パターンを想起する脳の数理モデルである連想記憶モデルについて,混合Bernoulli分布を仮定した変分Bayes (VB)法による解析を行った.このモデルはニューラルネットワークの一種で,既に統計力学的手法により概ね定量的に解析されている.しかし,統計力学的手法では平均場モデルなどの単純な確率モデルを解析することはできるものの,複雑な確率モデルの殆どは上手く扱えないという欠点がある.そこで本研究では,系のシミュレーションを組み合わせた数値的な手法から連想記憶モデルの解析を行い,本アプローチの有用性を検証することを試みた.今回扱う連想記憶モデルは一般に複数のアトラクタがあり,分布上高密度のクラスタを複数形成する.このクラスタの数は,次元数(ニューロン数),記憶パターン数,温度パラメータ等の条件により概ね既知であるが,これをMarkov Chain Monte Carlo法によって得られる系の経験分布とVB法を組み合わせることで,数値的に当てることを考える.VB法は元々Bayes予測分布を近似的に求める手法であるが,モデルサイズ(ここではクラスタ数)に関して事後確率最大化(MAP)推定を行うことでモデル選択に使用可能である.また,VB法は混合正規分布への適用が有名だが,今回は多次元バイナリ分布(Isingスピンモデル)であるため,各次元独立の混合Bernoulli分布をベースにVB法を構築した.連想記憶モデルの条件としては,ニューロン数100,記憶パターン数3,低温有限温度という設定で行った.この条件は記憶パターンが安定に想起される条件で,反転パターンと併せて6個のクラスタが分布上出現することが分かっている.この系に対し交換Monte Carlo法を用いてサンプリングを行い,経験分布を得た.このデータに上記混合Bernoulli分布に基づくVB法を適用したところ,概ね正解のクラスタ数6を推定することに成功した.以上より,本手法は多次元バイナリモデルで分布がクラスタを形成する場合,これは統計力学的には1段階のレプリカ対称性の破れ(1RSB)条件でよく見られるが,このクラスタの推定に有用であることが示唆される.今後,連想記憶モデルでの他の相条件においても本手法を適用し,特に相境界をクラスタ数の違いとして捉えることが可能かどうかを検証していきたい. |
|
|
P061 |
定常Markovモデルの体積要素と拡大モデルについて [概要][資料] |
ディスカッション |
竹内 純一(九州大学) |
|
多項ベルヌーイモデルと定常マルコフモデルの体積要素について考察する.ここで体積要素とは,フィッシャー計量から定まるそれを指し,モデル上で規格化するとジェフリーズ事前分布となる.多項ベルヌーイモデルの情報幾何学的構造については,デノーマライゼーション(非規格化,あるいは拡大モデル)を用いると,見通しよく理解できることが知られている[1].特に,混合接続については,多項ベルヌーイモデルは,拡大モデル中のアファイン部分空間とみなせる.このとき,次の二つが一致する.1)拡大モデル上の体積要素に対応する期待値パラメータの密度関数の多項ベルヌーイモデルへの制限.2)多項ベルヌーイモデル上の体積要素に対応する期待値パラメータの密度関数.アルファベットサイズをkで表すと,多項ベルヌーイモデルは k-1 次元であり,拡大モデルは k 次元である.すなわち,1)は k 次元体積を表し,2)は k-1 次元体積を表すため,両者は意味の異なる量である.本発表では,まずこの関係の幾何学的な解釈を与える.次に,このような構造がマルコフモデルの場合にどのようになるかを考察する.マルコフモデルの場合,拡大モデルはデノーマライゼーションでは得られない.これは,期待値パラメータの各成分間に課される条件として,規格化条件以外に,確率フロー保存則があるためである.本発表では,この両者を除いたモデルとして拡大モデルを定義する.このとき,多項ベルヌーイモデルの場合と同様に,マルコフモデルは拡大モデル中のアファイン部分空間となるが,Fisher計量を自然な形で定義すると,退化することが分かる[2].すなわち,拡大モデルの体積はゼロである.本発表では,このような退化した計量からマルコフモデル上の体積要素がどのように得られるかを示し,多項ベルヌーイモデルとの違いについて論じる.参考文献[1] Amari, Nagaoka, Methods of Information Geometry, AMS & Oxford University Press, 2000.[2] Takeuchi, ``Fisher Information Determinant and Stochastic complexity for Markov Models,'' IEEE ISIT2009. |
|
|
P067 |
リスク考慮型強化学習に向けたリターン分布推定 [概要][資料] |
ディスカッション |
森村 哲郎(日本IBM), 杉山 将(東京工業大学), 鹿島 久嗣(東京大学), 八谷 大岳(東京工業大学), 田中 利幸(京都大学) |
|
強化学習法の多くはリターンの期待値の最大化を目的としていた.しかしながら、期待リターンを最大化する学習では十分でない状況が存在する.期待リターンの最大化は全体としては発生するコストを軽減するであろうが、これは必ずしも高いコストの発生するリスクを積極的に回避することを目指しているわけではない.つまり、起こる確率は小さいが、 大きなコストが発生してしまうような可能性があり、ユーザーがそのリスクをなるべく回避することに興味がある場合、期待リターンではこの目的を正しく反映しているとはいえない.特に、金融工学において、リスク回避は主要なテーマとなっており、例えば、株式投資の場合には、小さな確率で起きる大きな損失を回避しながら収益を高めるようなポートフォリオを組むことが必要となる. 本発表では、大きなコストの発生等を考慮したリスク考慮型強化学習に向けて、(モデル・フリー)リターン分布推定手法について議論する.リターン分布が求まれば、金融分野においてよく用いられる(条件付き)バリュー・アット・リスク(VaR)と呼ばれるリスク指標を算出でき、リスク指標に基づいた意思決定が可能となる.よってリターン分布の推定は重要な研究エリアとなりえるが、従来法にはリターンの分散推定に関するものしかなく[1,2]、リスク指標を求めるには不十分であった.そこで、我々は、[3]のリターン分布のベルマン方程式を利用して、ガウスやラプラス分布等を用いたパラメトリック・リターン分布推定法や、パーティクルを利用したノンパラメトリック推定法を提案する.また、簡単な数値実験による各提案手法の性能・評価結果も紹介する.参考文献[1] R. Dearden, N Friedman, S. Russell (1998). Bayesian Q-learning. In Proc. National Conference on Artificial Intelligence (AAAI).[2] 佐藤 誠, 小林 重信 (2001). 報酬の分散を推定するTDアルゴリズムとMean-Variance強化学習法の提案. 人工知能学会論文誌.[3] 中田 浩之, 田中 利幸 (2006). マルコフ決定過程における収益分布の評価. 情報論的学習理論ワークショップ(IBIS). |
|
|
P084 |
SemiCCA: Efficient semi-supervised learning of canonical correlations [概要][資料] |
ディスカッション |
木村 昭悟(NTT), 亀岡 弘和(NTT), 杉山 将(東京工業大学), 前田 英作(NTT), 坂野 鋭(NTT), 石黒 勝彦(NTT) |
|
This work deals with an extention of canonical correlation analysis (CCA), a popular multivariate analysis tool for pairs of co-occuring multi-dimensional sequences. We propose an efficient method called ""semiCCA"" that enables us to obtain canonical correlations of sequence pairs even if several sequences are missing. This situation can be frequently found in multi-label classification such as audio tag classification and automatic image annotation. In this case, semiCCA can efficiently extract relationships between features and labels in a semi-supervised manner. Preliminary experiments with artificially generated sequence pairs show that our method can accurately extract canonical correlations of sequence pairs even if distributions of all the sequences and missing ones are grately different. |
|
|
P087 |
飽和性と極大性を用いた,単一系列データにおける頻出系列の高速マイニング [概要][資料] |
ディスカッション |
村田 拓也(山梨大学), 岩沼 宏治(山梨大学) |
|
複数の系列データにおけるマイニング手法としては,射影を用いた深さ優先探索や頻出系列のうち特別な系列である頻出飽和系列のみのマイニング,さらにそれらの効率化といったさまざまな技術が研究されてきた.しかし,単一系列データにおけるマイニング手法としてあまり多くの技術は提案されていない.単一系列データを効率的にマイニングするには大量の抽出データを圧縮する必要がある.そのためには,複数系列データマイニングでの技術の転用をまず考える.その際,単一系列データでは系列の出現回数をカウントする頻度関数が複数系列データの場合と異なるため,その頻度関数の特性に応じて改良する必要がある.また,この考えに基づいた過去の研究で応用を考えている新聞記事データでは,飽和系列手法はほとんど効果がなかった.そのため新たに極大系列手法による圧縮を考え,実験的評価を行い,良好な結果を得た. |
|
|
P091 |
多次元尺度法を用いたアドレナリン受容体の機能分類 [概要][資料] |
ディスカッション |
井上 泰仁(舞鶴工業高等専門学校) |
|
Gタンパク質共役型受容体 (GPCR) とは、細胞表面受容体の1つであり、細胞膜を7回貫通する特徴的な構造から7回膜貫通型受容体とも呼ばれ、多くのGPCR は、創薬開発の候補になっている。アドレナリン受容体は GPCR の中の 1 つであり、アドレナリン、ノルアドレナリンを始めとするカテコールアミン類によって活性化される受容体である。主に心筋や平滑筋に存在している。GPCRの機能は、膜タンパク質のループ領域の長さと関係している事が報告されている [Inoue et al. 2004]。しかし、結合するリガンド、および、Gタンパク質の種類・部位については、すべてが明らかになっていない。今回の研究では、アドレナリン受容体に着目し、ループ領域 (N/C 末端ループ、細胞外ループ、細胞質内ループ) の長さについての解析を行い、どのように関係しているのかを明らかにすることが目的である。 タンパク質データベース UNI-PROT (Release 56.0 [Bioroch et al. 2004]) より、57 配列のアドレナリン受容体のみを抽出した (α1、α2、βは、それぞれ、13、17、27配列であった)。隠れマルコフモデルを用いた膜貫通領域予測法 HMMTOP 2.0 [Tusnady and Simon 2002] を用いて予測し7回膜貫通型受容体を使用した。8つのループ領域の長さの情報を用いて、アドレナリン受容体の機能分類を試みるために、多次元尺度法を利用し、解析を行った。 アドレナリン受容体のループ長を解析することによって、α1、α2、βの3種類のアドレナリン受容体を分類できることがわかった。特に、第3細胞質内ループ、および、C末端ループは、細胞質側にあり、Gタンパク質と結合すると考えられるループであり、GPCR を機能の観点より、ループ領域の長さのみではなく、アミノ酸組成の情報も加え、統計学アプローチによって、シグナル分子、および、Gタンパク質の種類、および、結合部位を解明するとともに、立体構造の解明へと進展していきたい。 |
|
|
P094 |
つながり方に着目した属性付きグラフの概要構造抽出 [概要][資料] |
ディスカッション |
寺田 愛花(お茶の水女子大学), 瀬々 潤(お茶の水女子大学) |
|
近年、生物ネットワーク、ソーシャルネットワーク、Webなどの大規模なネットワークデータが採取され,これらを解析するグラフマイニングの研究が盛んに行われている.代表的なグラフマイニング手法は,辺が蜜な部分グラフを抽出するクリーク発見や,グループ内の辺は密、グループ間の辺は疎である様な頂点グループを発見するグラフクラスタリングであり,いずれも密に繋がった部分グラフの発見を行っている.これらとは異なり,本研究では頂点のつながり方に着目し,与えられたグラフをより少ない頂点と辺で要約する.特に,実世界のグラフの多くには頂点に何らかの属性(タンパク質の機能,サークルなど)が存在することから,同じグループ内の頂点は属性が同一のものが多く、グループ間は辺が密に引かれるようにグループを構成することで,属性間のつながりが明確になるグラフの概要を抽出する.この要約発見のために,我々は頂点のグループ分割に対する新たな指標を導入する.この指標は,グループ内の頂点の属性が均一である事を計測するためにエントロピーを,グループ間の辺の粗密を計測するためにグループ間に張られる辺に関連する頂点数を利用している.我々の指標では,これらの指標を独立に扱うのではなく,指標を組み合わせ,更にグループを分割しすぎない様に正規化項を加える事で,一つの指標のみでグループ分割の良さを計測できる.更に,正規化項のパラメータによって,分割するグループ数の調整も可能である.この導入した指標が大きい分割を求めるため,全てのグループ内の頂点が同一の属性を持つ状態を初期値とし,辺を張るグループが似ているグループを併合,その後,グループ分割を行う事で,指標を大きくする分割を求めた.本手法を用い,頂点をタンパク質、属性をその機能、辺を相互作用で与えた、酵母のタンパク質相互作用ネットワークを本手法で解析した結果、1,184のタンパク質を65のグループに分ける結果を得た.この結果から,細胞周期に関わるタンパク質群を,細胞周期自身に対して影響するタンパク質群と,細胞内の様々な機能に対し影響を与えるグループに分割し,また,異なる機能に分類されていた代謝に関わるタンパク質群を,類似した機能として同一のグループに分類でき,その結果,タンパク質機能の大域的な理解が得られ,本手法の有効性が示せた. |
|
|
P097 |
教師なしアンサンブル適応法の提案と音響モデル適応への応用 [概要][資料] |
ディスカッション |
篠崎 隆宏(東京工業大学), 久保田 雄(東京工業大学), 古井 貞熙(東京工業大学) |
|
アンサンブル法は,複数の識別器を用いることで単独の識別器を用いたときよりも高い予測精度を得ようとする手法である.通常は評価時の性能を直接的に向上させるために用いられるが,期待値最大化(EM) 法などの確率評価を内包する繰り返し学習アルゴリズム内部に応用することで学習汎化性能の向上を図り,評価時にはそのようにして推定した単独のモデルを使用することも考えられる.このような手法として我々はこれまでに教師あり学習法としてEMの枠組み内にクロスバリデーション(CV)を組み入れたCV-EM法,および同様にバギングに似た手法を組み入れたAg-EM法の提案を行った.音声認識実験によりこれらは過学習に対して頑健で従来EM法よりも高い性能が得られることを示した.本研究ではこれらのアルゴリズムをバッチ型教師なし適応法に拡張した,教師無しクロスバリデーション(CV)適応法および教師無し集合(Ag)適応法を提案する.音声認識における教師なし適応ではまず不特定話者モデルを用いて音声認識を行い,得られた認識仮説をラベルとして用いて最尤線形回帰法などによる教師あり適応を行うことが一般的である.高い認識性能を得るためにはこのプロセスは更新されたモデルを用いて認識を行うことで複数回繰り返えされる.これはビタビ近似やパラメタ拘束を取り入れたEMアルゴリズムと看做すことが出来る.この枠組みで一般的に問題となるのが,認識仮説には認識誤りが避けられずモデルの推定が誤ったラベルを含めて行われるために同じ認識誤りが繰り返される可能性が高く,さらに再推定されたモデルを用いた認識とモデルの更新が同じデータに対して繰り返されるため認識誤りの影響が強化されてしまうことである.提案する教師無しCV適応法では認識ステップとモデル更新ステップで使用するデータを分離することで適応繰り返しループ中において認識誤りの影響が繰り返し強化されることを防ぎ,教師なし適応の汎化性能を向上させる.同様に教師無しAg適応法では複数のモデルを用いて同じデータをバギング手法的に繰り返し処理することで,個々のモデルによる認識誤りの影響を抑制する.提案法を大語彙連続音声認識における音響モデルの話者適応へ応用し,従来型のバッチ適応と比較して高い認識性能が得られることを示す. |
|
|
ポスターセッションB 2008年10月20日(火) 15:15-18:15
|
|
|
P004 |
1次元線形動的システムの特異性とベイズ汎化誤差への影響 [概要][資料][論文] |
テクニカル |
内藤 卓人(東京工業大学), 山崎 啓介(東京工業大学) |
|
線形動的システムは物体のトラッキングやカーナビゲーションシステムにおける位置同定などの時系列データの解析に幅広く応用されている.これらのシステムは,観測値と隠れ状態を含む状態空間モデルで表現することができ,隠れ状態を推定するアルゴリズムとしてカルマンフィルタが広く知られている.また,状態空間モデルの係数が未知の場合には,それをパラメータとみなし観測値から学習することができる.しかしながら,状態が冗長な成分を含む場合の推定結果やパラメータ学習の挙動は未だ解明されていない.本論文では,線形動的システムが特異モデルであることを示し,ベイズ汎化誤差の漸近領域における上界を導出する.さらに,その特異性がカルマンフィルターによる状態推定にも致命的な影響を与えることを述べる. |
|
|
P010 |
品質の異なる二つのデータ集合間の転移学習の解析 [概要][資料][論文] |
テクニカル |
赤穂 昭太郎(産業技術総合研究所), 神嶌 敏弘(産業技術総合研究所) |
|
There is often the case that we have a pair of datasets, where one consists of few high-quality data and the other consists of many low-quality data.Kamishima et al. has proposed a bagging-based learning algorithm to synthesize such a pair of data sets. However, it has not been clear when the learning algorithm improves the estimation obtained by using only the few high-quality dataset. We analyze a simple exponential family model, and prove that the bagging-based learning algorithm does not work for this model, but an appropriate modification improves the estimation drastically. |
|
|
P011 |
条件付きエントロピー最小化に基づく教師付き次元削減手法 [概要][資料][論文] |
テクニカル |
日野 英逸(早稲田大学), 村田 昇(早稲田大学) |
|
データが有する本質的な情報を失うことなくデータの次元を削減することは情報処理における重要な課題である. 学習データにクラスラベルが付随している教師付き次元削減手法としては, Fisher Discriminant Analysis(FDA)が広く用いられている. しかし, FDAによる次元削減で得られる判別曲面は非常に限定された理想的状況においてのみ最適であり, 実際上も適切な判別曲面が得られないことが多い. 本報告では, 情報論的な観点から教師付き次元削減問題を捉え, 条件付きエントロピー最小化に基づく次元削減の枠組みを提案する. 推定した条件付きエントロピーの最小化を勾配法により実行し, 可視化及び判別問題への適用結果を記す. さらに, カーネル法を用いた非線型教師付き次元削減への拡張も試みる. |
|
|
P033 |
ネットワーク科学の方法を用いたWebページネットワークの構造による分類 [概要][資料][論文] |
テクニカル |
中川 帝人(名古屋大学), 鈴木 泰博(名古屋大学) |
|
Watts、Barabasiらの論文以降、従来の社会ネットワーク分析も含む、ネットワーク科学の手法の発展により、様々な対象のネットワークが研究対象となってきた。しかしながら、それらの研究は単一の巨大なネットワークを各種統計的指標を用いて解析し、モデル化をするというアプローチが主流であり、現実のネットワークを多数集めて比較解析した研究は少ない。そこで、本研究ではWebページのネットワークを対象として、これをドメイン毎に複数収集することによって、多数のネットワークの収集を行う。そして、ネットワークの各種統計的指標が全てのネットワークでどのような分布を示すのか、またどのようなネットワーク構造のクラスが存在するかを調べることを目的とした。このためにイギリスのUKドメインに属するホームページをクローリングして、それぞれのドメイン内のリンクによるWebページのネットワークを多数抽出した。そこからサイズによる構造の違いを無視するために、100〜1000のサイズのWebページネットワークを対象として、さまざまなネットワーク科学の解析法を用いて、各ネットワークの統計的特性量から特徴ベクトルを作成し、これを自己組織化マップを用いて分類した。結果、この同サイズのWebページのネットワークは構造から2つのクラスに分類された。一つはスケールフリーでない完全グラフに近いネットワークであり、もう一つはスケールフリーな木構造であった。 |
|
|
P037 |
化合物-タンパク質活性空間における特徴選択 [概要][資料][論文] |
テクニカル |
新島 聡(京都大学大学院), 奥野 恭史(京都大学大学院) |
|
In this paper, we address the issue of feature selection for chemical genomics.In particular, we propose an efficient feature selection algorithm for identifying chemicalfeatures that contribute to prediction of binding activity between chemicals and proteins.Notably, this algorithm allows feature selection in binding activity space, into which chemicals are mapped jointly with proteins by means of kernel methods. We apply the algorithm to a dataset on Cytochrome P450 (CYP), illustrating its capability of selecting a small subset of predictive features, which are also found to be indicative of CYP inhibitors. Although this study is directed toward the selection of chemical features within the contextof chemical genomics, the proposed algorithm has the potential to find wide applicationsin real-world problems. |
|
|
P043 |
大幾何マージン最小分類誤り学習法 [概要][資料][論文] |
テクニカル |
渡辺 秀行(独立行政法人 情報通信研究機構), 片桐 滋(同志社大学), 山田 幸太(同志社大学), マクダーモット エリック(日本電信電話株式会社), 中村 篤(日本電信電話株式会社), 渡部 晋治(NTT), 大崎 美穂(同志社大学) |
|
The recent dramatic growth of computation power has resulted in increased interest in discriminative training methods for pattern recognition. Minimum Classification Error (MCE) training is especially attracting a great deal of attention, and it can be used to achieve minimum-error classification of various types of patterns. However, for increasing the robustness of classification, the conventional MCE framework has no practical optimization procedures like the geometric margin maximization in Support Vector Machine (SVM). To realize high robustness in a wide range of classification tasks, we derive the geometric margin for a general class of discriminant functions and develop a new MCE training method that increases the geometric margin value. We demonstrate the effectiveness of the new method by experiments using prototype-based classifiers and clarify relationships between the new method and such existing methods as SVM. |
|
|
P046 |
点過程を特徴付ける統計量の時間変化を推定する [概要][資料][論文] |
テクニカル |
下川 丈明(京都大学), 篠本 滋(京都大学) |
|
We selected a set of inter-event interval(IEI) metrics that may efficiently characterize patterns of event occurrences and determined the function that may extract these characteristics. We found that the set of efficient metrics is the mean IEI and the mean log IEI, which represent the rate and the irregularity respectively, and the most suitable function is the gamma distribution function.We constructed Bayes method equipped with the gamma distribution function for estimating the instantaneous rate and irregularity of occurrence for a given event sequence. We confirmed that the Bayes method can capture the instantaneous rate and irregularity reasonably well even when a event sequence is generated from the log-normal and inverse-Gaussian distributions. |
|
|
P050 |
生物学情報への機械学習解析の応用(Toxicogenomicsへの展開) [概要][資料][論文] |
テクニカル |
武藤 裕紀(中外製薬株式会社), 松下 智哉(中外製薬株式会社), 芦原 基起(中外製薬株式会社) |
|
マイクロアレイ技術の発展により、網羅的な遺伝子発現データを比較的容易に取得することが可能となり、生物学の多くの分野で活用されている。 マイクロアレイで得られるデータは単に膨大なだけでなく、生物学的な複雑さを含むため、統計解析やバイオインフォマティクス技術の使用が不可欠である。トキシコゲノミクスは、マイクロアレイ技術を毒性学の領域に応用し、薬物を動物や細胞に暴露して網羅的に遺伝子発現解析を行うことにより、毒性発現メカニズムの解明や毒性予測を行う学問領域である。従来の毒性評価法に比べ、創薬研究の初期段階で医薬品候補化合物の毒性を効率的に評価・予測する手法として期待されている。毒性予測には、あらかじめ毒性の発現が確認されている化合物と、毒性の発現が認められていない化合物の情報を与えて予測モデルを作成する教師付き機械学習の手法が有用である。 本研究では、機械学習によりトキシコゲノミクスデータからの毒性予測モデルを構築する上で、GeneChip解析に必要な前処理が予測モデルの精度にどのような影響を与えるかについて検討を行った。リファレンスデータには「トキシコゲノミクスプロジェクト」で構築された150を超える化合物の遺伝子発現および付帯する毒性関連情報データベースを用いた。また、機械学習アルゴリズムにはSVM (Support Vector Machine )を用い、肝臓における胆管増生を対象毒性として検討を実施した。検討結果に基づき、SVMにより予測モデルを構築した結果、精度の高い予測モデルの構築に成功した(Sensitivity 83.3%, Specificity 100%)。本研究の結果から、トキシコゲノミクスデータに機械学習を応用することで化合物の毒性を予測することができる可能性が示唆された。また最適な手法を選択・使用することが精度の向上に重要な因子であることが確認された。 |
|
|
P052 |
Ellipsoidal Support Vector Machines [概要][資料][論文] |
テクニカル |
門馬 道也(NEC) |
|
This paper proposes the ellipsoidal SVM (e-SVM) that uses an ellipsoid center,in the version space, to approximate the Bayes point. Since SVM approximates it bya sphere center, e-SVM provides an extension to SVM for better approximation of theBayes point. Although the idea has been mentioned before [11], no work has been donefor formulating and kernelizing the method. Starting from the maximum volume ellipsoidproblem, we successfully formulate and kernelize it by employing relaxations. The resultinge-SVM optimization framework has much similarity to SVM; it is naturally extendable toother loss functions and other problems. A variant of the sequential minimal optimizationis provided for efficient implementation. The empirical results are shown to be consistentwith the Bayes point machines, in terms of classification performance, and difference fromother related methods is highlighted by using high dimensional datasets. |
|
|
P057 |
確率伝搬法による確率的画像処理における統計的性能評価 [概要][資料][論文] |
テクニカル |
片岡 駿(東北大学), 安田 宗樹(東北大学), 田中 和之(東北大学) |
|
本論文では確率伝搬法による確率的画像処理の統計的性能評価法を提案する.確率的画像処理はベイズ統計に基づき画像に対する確率モデル化をおこなうことにより,ノイズなどの要因により生じるデータの不確実性を確率という形で数理的に取り扱うことのできる理論枠組みとして知られている.しかし,ノイズや画像データ自身の不確実性を確率モデル化して扱うためにシステムが確率的な分散をもつこととなるため,その性能をシステムの統計性を用いて評価することが重要となる.統計的性能評価法は原画像の事前確率をガウシアングラフィカルモデルや完全グラフ上で定義された確率モデルなどの可解確率モデルに仮定した場合についてはすでに提案されてきている.しかしながら一般の確率モデルに対する具体的な統計的性能評価法はまだ報告されていない.そこで本論文では確率的画像処理においてその有効性が認知されつつある確率伝搬法に注目し,確率的画像処理のより実際に近い場合についての統計的性能評価法を提案する.簡単のため2階調画像に対する確率的画像処理において原画像の統計的性質が事前確率分布として与えられている場合と原画像が具体的に与えられている場合の両方に対して,確率伝搬法のメッセージの分布関数をもちいた定式化を行い,数値実験による統計的性能評価の結果を示す. |
|
|
P064 |
Chow-Liuアルゴリズムの一般化と、木の複雑さを考慮した修正版について [概要][資料][論文] |
テクニカル |
石田 悠(大阪大学大学院), 鈴木 譲(大阪大学大学院) |
|
確率空間を決めれば、そのσ集合体上で可測な写像Xは確率変数とよばれる。しかしながら、工学的な応用では、Xの値域が離散の値をとるとか、その分布関数が絶対連続(確率密度関数が存在)といった特殊な場合を扱うことが多いようであり、一般の確率変数X,Yについては、ほとんど議論されていないようである。また、分布間の隔たりを示すKullback-Leibler情報量に関しても、連続や離散に限られた場合についてだけ定義されている。本論文では、データマイニングで計算量の低減を目的に使われる、Chow-Liuアルゴリズムの一般化、および木の複雑さを考慮したアルゴリズムの修正版(正規分布版)を提示する。N個の確率変数の間のMarkovネットワークを木(巡回経路をもたないネットワーク)で近似する問題を考える。巡回経路を生成しない限り相互情報量を最大にするノードの対を辺として結合していくと、両者の分布の間のK-L情報量を最小にする木が得られる(Chow-Liu, 1968)。分布の近似ではなく、学習のようにあるn個のサンプルを得ている場合にも、相対頻度を用いて相互情報量が定義され、Chow-Liuアルゴリズムが同様に適用される。しかし、Chow-Liuのオリジナル論文をはじめ、従来はN個の確率変数が有限個の値をとる場合のみを扱っていた。本論文では、確率空間における勝手なN個の確率変数の場合にどのようになるかを検討する。その際に、一般的な相互情報量の定義が必要となる。学習の場合、K-L情報量最小という基準では、尤度(適合度)最小という基準で木を選択することになる。MDL原理を適用して、木の複雑さを考慮した場合でも、やはり相互情報量を修正(2個の確率変数の取りうる値の数を考慮)することによって最適解が与えられる(Suzuki, 1993)。しかし、これもやはり、N個の確率変数が有限個の値をとることを仮定している。本論文では、N個の確率変数が正規分布にしたがう場合にどのように修正できるかを示す。 |
|
|
P070 |
Kullback-Leibler Importance Estimation Procedureを用いたRestricted Boltzmann Machineの学習アルゴリズム [概要][資料][論文] |
テクニカル |
桜井 哲治(東北大学), 安田 宗樹(東北大学), 田中 和之(東北大学) |
|
Deep Belief Network (DBN)はHintonらによって,その学習アルゴリズムとともに提案された階層構造をもつベイジアンネットワークモデルである.Greedyな学習アルゴリズムの存在やそこでの推論が容易であることを背景に次元圧縮器やパータン認識問題などへの応用が期待されている.DBNの学習は各層間の結合確率をRestricted Boltzmann Machine (RBM)とよばれる特別な構造をもつボルツマンマシンと考えて各層間のパラメータを学習する.RBMは可視素子層と隠れ素子層の2層からなる2部グラフの構造をもっている.DBNの学習はその構成要素であるRBMの学習を逐次的に進めていくことによりおこなわれる.したがってDBNのよりよい学習を得るためには各層をなしているRBMのよりよい学習アルゴリズムを設計する必要がある.しかしながらRBMの厳密な学習アルゴリズムは素子数に対して指数的に増加する計算量をもっているため一般にはNP-hardのクラスに属し,計算が困難である.そこで実装においては何らかの近似的手段に頼らざるを得ないこととなる.Roux and BengioはDBNの学習に対して有効な方法(Variational Boundの最適化法)として従来とは異なるRBMの学習基準を提案した.彼等の基準による学習アルゴリズムを用いると3層のDBNの場合,システムが観測データ点の経験分布を十分に表現し得るものであるならば,Greedy学習により最適なDBNを学習できることが示されている.しかしながら彼らの学習基準によるRBMの学習アルゴリズムもやはり計算コストの問題を抱えており,それを解決する近似アルゴリズムの開発が必要とされている.本論文ではSugiyama等によって提案されたKullback-Leibler Importance Estimation Procedureと呼ばれる近似手法をRoux and Bengioの学習基準による学習アルゴリズムに適用することにより,実装に耐え得る性能のよい新しいRBMの近似学習アルゴリズムを提案する.さらに,人工データに対する数値実験を行い,提案アルゴリズムがRoux and Bengioの基準による学習アルゴリズムに対するよい近似となっていることを示す. |
|
|
P072 |
非定常2値時系列データから隠れた構造を読み取る - 神経科学データへの応用- [概要][資料][論文] |
テクニカル |
瀧山 健(東京大学), 岡田 真人(東京大学大学院) |
|
時系列データから変化点を検出することは機械学習,データマイニングや統計学における重要な課題の1つである.変化点とはその前後で時系列データの時間相関や平均値が急激に変化する点を意味し,非定常性の原因となる. スイッチング状態空間モデル(Switching State Space Model (SSSM) )は変化点を含む時系列データを記述する確率モデルである.SSSMでは複数の生成過程を定義し,用いる生成過程がスイッチする時刻を変化点として検出し,非定常なデータを定常なデータに分割する.そして各定常区間毎に異なる生成過程のフィッティングを行い,時系列データの非定常性を記述する. 観測する時系列データが0,1の2値のみをとる場面は数多く存在する.地震の発生,ニューロンのスパイクの発生などが2値時系列データの例である.Brownらは地震データの解析に用いられていたK-Sテストをニューロンデータの解析へ応用できることを示した.つまり,2値時系列データの解析手法は様々な分野に共通して適用可能であると考えられる. 本研究では0,1の2値時系列データを解析するため,非ガウスSSSMの推定と学習のアルゴリズムを変分ベイズ法,局所変分法を用いて構築する.本アルゴリズムを神経科学データに適用し,1本の時系列データから非定常なイベント発生確率,変化点の時刻を推定できることを示す.さらに変分ベイズ法における関連度自動決定により時系列データを記述する最適な生成過程の数を推定する枠組みを提案する. Abelesらは遅延反応課題時のサルの前頭葉ニューロンデータを解析した結果,ニューロンは異なる複数の状態間を遷移していることを示した.異なる神経状態は異なる刺激を反映し,変化点前後で起こる状態遷移は,刺激の切り替わりやオンオフと対応している.つまり,変化点の検出,状態数の推定は未だ明らかでないニューロンの情報表現の解明に重要な役割を果たす. 意志決定や運動計画などの内的な過程では,実験毎にニューロンの状態遷移時刻が異なり,1本のスパイク列からイベント発生確率,変化点,神経状態数を推定する必要がある.しかしながら,変化点を含む非定常なイベント発生確率を1本のスパイク列から推定し,更に神経状態数も同時に推定する手法は未だ存在しない.本手法は上記の問題点を同時に解決できることを示す. |
|
|
P075 |
部分空間SVMのための交差部分空間学習 [概要][資料][論文] |
テクニカル |
井之上 直矢(東京工業大学) |
|
SVMは高い汎化能力を持つ識別機として注目され,現在も広く研究されている.本研究では,部分空間SVM (SSVM) と呼ぶSVMを拡張した新しい識別器を提案する.SSVMは,SVMにその識別超平面の法線ベクトルが部分空間に含まれるという制限を導入したものである.SVMでは法線ベクトルは標本点によって張られ,そのパラメータの学習もまた同じ標本点を使って行われる.SVMのこの特性はパラメータ選択という観点からは,汎化性を損なう可能性がある.そこでSSVMに交差検定と同様の手法を用いてみることにする.SSVMを使えば識別境界の法線ベクトルを張る標本点とそのベクトルのパラメータを決める標本点を異なるものにすることができる.そこで標本点の集合を2つに分けて,片方をSSVMの制限部分空間を張るために用いる.識別境界の法線ベクトルは,このセットのベクトルに一次結合となる.そしてもう片方を,SSVMの学習と同じように,法線ベクトルとしきい値のパラメータを学習するために用いる.この解も凸2次計画問題で解くことができる.また交差検定法と同じように標本点の分け方は変えることが可能で最終的な結果は分割それぞれでの結果を平均したものとする.この手法をSSVMのための交差部分空間学習と名付ける.交差部分空間学習法は,学習標本点を分割して利用するという面では,バギングなどのアンサンブル学習と類似しているようにも見える.しかしながら,アンサンブル学習では,一部分の学習標本点を使って学習した弱学習器の識別結果を,多数決などによって組み合わせるのに対して,交差部分空間学習法は,最終的な識別規則は元のサポートベクトルマシンと全く同じであり,法線ベクトルの重みやしきい値などのパラメータの決定のために,交差検定の考え方を取り入れるために学習標本点を分割するもので,アンサンブル学習とは異なるものである.本稿では,2クラス識別用の13のデータセットを用いて実験を行い,提案手法の有用性を示した. |
|
|
P077 |
線形時間異種混合モデル選択のための期待情報量基準最小化法 [概要][資料][論文] |
テクニカル |
藤巻 遼平(NEC), 森永 聡(NEC), 門馬 道也(NEC), 青木 健児(NEC), 中田 貴之(NEC) |
|
Our main contribution is to propose a novel model selection methodology, expectation minimization of information criterion (EMIC). EMIC makes a significant impact on the combinatorial scalability issue pertaining to the model selection for mixture models having types of components. A goal of such problems is to optimize types of components as well as the number of components. One key idea in EMIC is to iterate calculations of the posterior of latent variables and minimization of expected value of information criterion of both observed data and latent variables. This enables EMIC to compute the optimal model in linear time with respect to both the number of components and the number of available types of components despite the fact that the number of model candidates exponentially increases with the numbers. We prove that EMIC is compliant with some information criteria and enjoys their statistical benefits. |
|
|
P079 |
Extending the Use of Instrumental Variables for the Identification of Direct Causal Effects in SEMs [概要][資料][論文] |
テクニカル |
Chan Hei(Center for Service Research, AIST), 黒木 学(大阪大学) |
|
In this paper, we present an extended set of graphical criteria for the identification of direct causal effects in linear Structural Equation Models (SEMs). Previous methods of graphical identification of direct causal effects in linear SEMs include methods such as the single door criterion, the instrumental variable and the IV-pair, and the accessory set. However, there remain graphical models where a direct causal effect can be identified and these graphical criteria all fail. We present a few of these examples, and presents an extended set of graphical criteria which uses descendants of the cause variable as ``path-specific instrumental variables''. The results can be used to identify the direct causal effect as long as an certain conditions based on an extended set of graphical criteria and the identifiability of other causal effects are satisfied. |
|
|
P080 |
独立性の一般化に基づく統計モデルの拡張 [概要][資料][論文] |
テクニカル |
藤本 悠(青山学院大学), 村田 昇(早稲田大学) |
|
Naive Bayes model(NB)やBayesian network,あるいはprobabilistic Latent Semantic Analysis(pLSA)など,何らかの形で独立性を仮定した統計モデルは,扱いやすさなどの点から様々な状況における統計的推論で広く用いられている.このような変数間の独立性を論じる際には周辺分布の積の計算が必要となるが,この際に用いられる乗算は,統計的な分布間の乖離尺度を表すのに広く用いられているKullback-Leibler(KL)情報量の意味での分布の一種の混合として解釈することができる.一般的な統計モデルの推定を考えた時,KL情報量に基づく推定(いわゆる最尤推定)はサンプル数の増加に伴う漸近有効性などの好ましい性質を持っているが,外れ値には著しく弱いという一面もある.一方,KL情報量の一種の一般化であるBregman情報量の意味での推定を考えることで,最尤推定にはないロバスト性などの好ましい推定結果を獲得し得ることが知られている.このような背景をふまえ,本稿ではBregman情報量の意味で乗除算の一般化を試み,それに基づく独立性の一般化を行う.またここで提案する独立性の一般化はcopula,特にArchimedean copulaの考え方と密接な関係があり,これによって変数間の特殊な依存関係を周辺分布の情報のみを用いて表現することが可能になる.このことを利用し,一般化独立性に基づく独立モデル及びnaive Bayesモデルの拡張を行い,それらの推定や性質に関する議論をベンチマークデータに対するいくつかの数値実験を交えながら行う. |
|
|
P082 |
近傍ハッシュを用いた高速なグラフカーネル [概要][資料][論文] |
テクニカル |
比戸 将平(IBM東京基礎研究所), 鹿島 久嗣(東京大学) |
|
We propose a novel graph kernel based on the structural characteristics of labeled graphs.The idea is to convert node labels to binary arrays and compare the nodes by logical operations on the set of the adjacent node labels.The proposed kernel can be computed in linear time with the graph size times the average degree of the nodes.Experimental results show that our graph kernel is efficient and it performs better than a state-of-the-art graph kernel for benchmark data sets. |
|
|
P086 |
Hannan-Quinn の命題は、線形回帰でも、ガウス型Baysian ネットワークの構造推定でも正しい [概要][資料][論文] |
テクニカル |
鈴木 譲(大阪大学大学院) |
|
This paper proves dn = 2 log log n is the smallest {dn}∞ n=1 such that the information criterion H + (k/2)dn, where H is the empirical entropy of n examples and k is the number of parameters that express the probability distribution, satisfies consistency for the problem of learning linear regression. Thus far, the problem was solved only for the problems of learning ARMA (autoregressive moving average, Hanann-Quinn, 1979) and conditional probabilities (Suzuki, 2006). The new result is good for learning the structure of Gaussian Bayesian networks as well. |
|
|
P090 |
非線形プリコーディングの統計力学的解析 [概要][資料][論文] |
テクニカル |
林 愛空(東京工業大学), 樺島 祥介(東京工業大学) |
|
近年,無線通信の普及に伴い,通信のさらなる高速化,高品質化が求められている.そのような状況の下で,限られた周波数帯域で伝送容量を増大させる方法として,複数の送受信アンテナを用いることで空間的な冗長性を利用して大容量通信を実現するMIMO通信が注目を集めている.ただし,同じ周波数で複数の信号を同時に送るため,干渉しあった受信信号からいかに元の信号を復元するかという問題が生じる.この干渉を抑えるために,あらかじめ送信機側で干渉成分の減算(線形プリコーディング)を行うことがあるが,この際,送信電力の増大が問題となる.この問題に対して,緩和された信号空間の中で送信電力が最小となるような信号に元信号を符号化することで送信電力を低減させる非線形プリコーディングを考えることができる.この非線形プリコーディングは組合せ最適化問題とみることができるため,送信電力の低減限界の評価や,与えられた信号からできるだけ電力を下げた信号を求める実際的なアルゴリズムを与えることは,厳密に行う限り計算困難な問題となる.さて,最近情報科学の問題に対して統計力学で用いられてきた手法が有効であることが認識され,情報通信をはじめ,さまざまな問題に適用することが試みられている.プリコーディングの解析においても,統計力学的手法による解析が有効であり,最近ランダム系の統計力学的手法であるレプリカ法による送信電力低減限界の評価がおこなわれた.この解析は最も単純な仮定であるReplica symmetry(RS)仮定のもとで行われたが,送信電力低減限界のシステムサイズ依存性が数値実験の結果と大きく食い違うなど系の振舞いを定性的にも捉えきれていないと考えられる.そこで,本発表ではより進んだ仮定であるone step Replica symmetry breaking(1 RSB)仮定のもとでレプリカ法による解析を行う.1RSB仮定はその特殊な状況としてRS仮定を含み,RS仮定に比べて評価関数の構造に対して,より詳細な解析を行うため,高い精度で定性的によりよい結果を得られることが期待できる.さらに,統計力学で知られている平均場近似を用いることで,実際的な符号化アルゴリズムを与える.また, RSB仮定において仮定される多数の準安定解と,アルゴリズムの平均的な性能との間に興味深い関係が得られることについても報告する. |
|
|
P095 |
Latent Dirichlet Allocationの量子アニーリング変分ベイズ学習 [概要][資料][論文] |
テクニカル |
佐藤 一誠(東京大学), 栗原 賢一(Google東京), 田中 宗(東京大学), 宮下 精二(東京大学), 中川 裕志(東京大学) |
|
This paper presents a quantum annealing variant of variational Bayes (QAVB) for Latent Dirichlet allocation(LDA). QAVB estimates latent topics in LDA by introducing quantum effect where we assume that the states of latent topics are quantum states. Experiments revealed QAVB finds a better local optimum than simulated annealing in terms of the variational free energy in LDA. |
|
|
P101 |
個性を考慮した周期的全身運動のオンライン予測 [概要][資料][論文] |
テクニカル |
松原 崇充(奈良先端科学技術大学院大学), 玄 相昊(ATR), 森本 淳(ATR) |
|
本稿では,歩行や走行などに代表される人の全身周期運動データのモデル化に焦点を当て,オンライン予測の目的に適した生成モデルと,その適応・予測アルゴリズムの導出を行う.提案する潜在変数モデルは状態空間モデルの一種であり,多様な動作は共通して定常周期運動であることに基づく,位相を潜在変数とする低次元動的システムと,動作の多様性を状態に依存して変化する基底の線形和で表現する観測モデルで構成される.さらに,テストデータに対してスタイル/状態変数を効率的に推定するオンラインアルゴリズムをEMアルゴリズムに基づいて導出する.モーションキャプチャで計測された人の歩行および走行データに対して,個性を捉えた高精度な予測が行えることを実験的に示す. |
|
|
P012 |
Sparse Exponential Family PCA with Heterogeneous Attributes [概要][資料] |
ディスカッション |
林 浩平(奈良先端科学技術大学院大学), 竹之内 高志(奈良先端科学技術大学院大学), 柴田 智広(奈良先端科学技術大学院大学), 池田 和司(奈良先端科学技術大学院大学) |
|
We study probabilistic PCA modelsof heterogeneously attributed data,for example a combination of binary, count, and nonnegative values.Our model allows to assume theheterogeneity by employing a differentexponential family distribution for each attributes of theobservations. The structure within the high-dimensional, disparate attributesare effectively captured on the low-dimensional natural parameter space.We introduce a prior knowledge of sparsities,and derive a variational Bayesian inference algorithm.We apply this method to synthetic dataand investigate a performance of the proposed model. |
|
|
P015 |
複数タスクに対するタスク選択実施能力を有するニューラルネットワーク [概要][資料] |
ディスカッション |
八尾 泰洋(東京大学大学院), 橋本 康弘(東京大学大学院), 陳 昱(東京大学大学院), 大橋 弘忠(東京大学大学院) |
|
本研究では複数タスクを学習したニューラルネットワークが与えられた入力から判断してタスクの選択を行うような計算モデルを考案した。現実世界のタスクは複数のタスクが絡み合ったものが多く、機械に行わせようとするとタスクを細分化、単純化する必要がある。それに対して生物は複雑なタスクを複雑なまま行うことができる。さらに、生物は以前の他のタスクでの経験を新しいタスクの学習の際に生かすことができ、これらは生物の強みの1つと言うことができる。ニューラルネットワークの複数タスク学習についての先行研究においても、このようにあるタスクが別のタスクの学習に生かされる例が報告されており、複数タスク学習の研究の進展によって複数タスクに対する生物の強みをニューラルネットワークに取り入れることができる可能性がある。複数タスク学習の先行研究では人がタスクを指定し、ニューラルネットワークはそのタスクに対しての解を出力していた。そうではなく、本研究では入力から判断してニューラルネットワークがどのタスクを行うべきかを選択するようなモデルを考えた。現実の世界では、状況に応じてどのような行動をとるべきか判断を迫られるケースが多く存在する。よって複数タスクとともにタスクの選択の学習をすることは、ニューラルネットワークの現実世界の複雑な問題に対処する能力を高めることにつながる。先行研究においては、複数タスクの学習はニューラルネットワークの出力をタスクごとに分割することによって実現されてきた。それに対して、本研究では入力としてタスクの情報を与えることにより、ニューラルネットワークが自身でタスクを選択し、タスクにあわせた出力をするような学習を実現した。本研究では遺伝的アルゴリズムによる最適化によってニューラルネットワークを学習し、ニューラルネットワークが複数タスクの選択を適切に行う判断能力を獲得するか計算を行った。ニューラルネットワークにはフィールド上に散らばっている2種類のトークンを種類ごとに選択的に集めるというタスクを課し、シミュレーションを行った。その結果、タスクの種類という直接的な情報を入力として与えた場合、ニューラルネットワークはタスクに対応して出力を変え、複数のタスクに適応するという結果が得られた。また、従来のあらかじめタスクを指定する方法と比較することで本研究で提示したモデルの欠点を明らかにした。 |
|
|
P023 |
How much is the sequence predictive for gene expression? [概要][資料] |
ディスカッション |
白石 友一(理化学研究所), 長嶋 剛史(理化学研究所), 岡田 眞里子(理化学研究所) |
|
発生や細胞の癌化などのメカニズムを理解するためには、どういった遺伝子がどのような仕組みで転写されるかを解明することが不可欠である。マイクロアレイ技術の発明により網羅的に遺伝子の発現量を計測できるようになったことで、情報学によるアプローチから、遺伝子ネットワーク推定が活発におこなわれるようになった。その後、ヒトゲノム計画の完成により、遺伝子の上流配列と発現の関係性を探る研究が盛んになった(Beer et al. 2004)。また、ヒストンの位置(Segal et al. 2006)やアセチル化、メチル化などのエピゲネティックな情報と遺伝子発現の関係を調べる研究が盛んに行われている。本発表では、特に遺伝子の上流配列により発現の程度がどの程度決定するかを、統計的学習理論の枠組みで検証した試みを紹介する。具体的には、上流配列を入力とし、「ある刺激により遺伝子の発現レベルが上がるか?否か?」を出力とするような判別機を構成し、その精度の検証を行う。さらに、判別機の学習の際に、どういった配列モチーフが重要な特徴量として選ばれるかを調べ、生物学的観点からの議論を行う。 |
|
|
P027 |
各要素が混合ガウス分布に従う行列に対する行列因子化による欠損値予測 [概要][資料] |
ディスカッション |
中村 政義(奈良先端科学技術大学院大学), 竹之内 高志(奈良先端科学技術大学院大学), 池田 和司(奈良先端科学技術大学院大学) |
|
近年商品の推薦システムが大きな注目を集めている.多くの推薦システムではユーザーが商品に対してつけた評価値などのデータを基に商品を推薦する.そのデータは多くの場合行列で表現され,欠測している部分が大多数であり,非常にスパースな行列となっている.このようなスパースな行列の欠損値予測は推薦システムにおいて重要であり,有効な方法として行列因子化法が知られている.この手法では行列を因子化(低ランクの行列で近似)することで欠損値を予測する.従来の手法では,行列の各要素は単一のガウス分布から生成されていると仮定しているが,実際のデータではユーザー毎にその性質が大きく異なっている場合もあり,単一モデルの仮定が適切ではない場合がある.そこで,著者らはこのようなデータに対応するための行列因子化法の拡張を行った.具体的には,スパース行列の要素が混合ガウス分布に従っているとしてモデル化し,EMアルゴリズムを用いてパラメータ推定を行い,欠損値予測を行った.本発表では,人工データを用いて欠損値予測を行った結果を述べ,行列因子化法の拡張の有無による予測精度の比較結果を報告する. |
|
|
P034 |
階層状態無限隠れマルコフモデル [概要][資料] |
ディスカッション |
牧野 貴樹(東京大学) |
|
無限隠れマルコフモデル (iHMM) は、HMMをノンパラメトリックベイズ統計で拡張し、隠れ状態数を積分消去したモデルであり、ベイズ確率モデルによる柔軟な学習能力で時系列データを扱うものである。しかし、iHMMは、HMMと同様に、学習が局所解に陥りやすい欠点があった。Beam Sampler など高性能なサンプラーの研究が進められているが、本来は性質の異なる複数の状態が同一の隠れ状態にミックスして学習されてしまった場合に、隠れ状態が離散的であるため、性質に応じて隠れ状態を再分配することが困難である。通常のHMMのパラメータ推定では、局所解を解決するために、隠れ状態を基準で分割するヒューリスティックが研究されているが、通常のベイズモデルに対してこのような操作を導入することは困難であった。我々は、iHMM の状態を階層化したベイズ事前分布のモデル、階層iHMMを提案する。隠れ状態のそれぞれが階層的に子状態をもち、各状態の遷移確率と出力確率が階層 Chinese Restaurant Process によって結び付けられているので、各子状態が親状態から遷移確率・出力確率を引き継ぎつつ独自の性質をもつことができる。また、隠れ状態の分割基準が、統計的に統一的な枠組みで表現できる。実験では、特に局所解の影響を受けやすいため、通常はHMMには使われない学習手法である粒子フィルタ法を適用した場合でも、iHMMを階層化した提案モデルにより、効率的な学習が可能になることを示す。 |
|
|
P042 |
階層パターンを持つ自己相関型連想記憶モデルのPCAによる解析 [概要][資料] |
ディスカッション |
塩塚 丁二郎(早稲田大学), 永田 賢二(東京大学), 岡田 真人(東京大学大学院), 井上 真郷(早稲田大学) |
|
階層構造を持つ記憶パターンを憶えた自己相関型連想記憶モデルについての解析を行った。階層構造は、親パターンと親パターンから生成される子パターンからなる。ここで、生成した子パターンのみを記憶パターンとしてモデルに記憶させる。上記のモデルでは、憶えた記憶パターンだけでなく階層的に上位の親パターンも、ある条件下で平衡状態となることが知られている。この親パターンは、階層的に同じグループに属する記憶パターンから形成される混合パターンともいえる。自己相関型連想記憶モデルの性質は、統計力学的手法を用いた従来の研究により解析されており、記憶パターン間の相関を表す値をパラメータとした相図が得られている。現在までのところ、記憶パターンが安定に存在し想起が可能である記憶相、記憶パターンと混合パターンが共に安定に存在する双安定相、混合パターンのみが安定に存在する混合相、何れのパターンも安定とならない常磁性相が明らかにされている。本研究では親パターン数を1、子パターン数を3として解析解より相図を得た。その結果、記憶パターンと混合パターンの熱力学的自由エネルギーが共に安定であり、その大小が入れ換わる相転移境界を新たに導出した。また、スピン数を2^10個として、系のシミュレーションと主成分分析(PCA)を組み合わせた手法による解析を行なった。具体的には、交換モンテカルロ法によってサンプリングしたスピンの経験分布を、最も分布の広がりが大きい平面に射影している。この手法は、平均場モデルにしか専ら適用できない統計力学的手法に比べ、系のシミュレーションさえ実行できればよいので汎用性が高い。また、本来ならば理解しにくい高次元の分布を、視覚的な低次元の分布に変換することができ、本手法を用いることにより系の自由エネルギーの状態を近似的に示すことができると考えられる。上記の解析手法を自己相関型連想記憶モデルに適用することで、記憶パターンが優位に想起される場合と、混合パターンが優位に想起される場合のそれぞれに見られる系の状態を、本研究で導出した相転移境界を挟む領域で確認することに成功した。このことは、解析手法の検証がまだあまりなされていない本手法の有効性を示唆する。 |
|
|
P049 |
ピアソンダイバージェンス最大化に基づく確率密度比推定のための次元削減手法 [概要][資料] |
ディスカッション |
杉山 将(東京工業大学), 原 聡(東京工業大学), Paul von B?nau(Technical University of Berlin), 鈴木 大慈(東京大学), 金森 敬文(名古屋大学), 川鍋 一晃(Fraunhofer FIRST.IDA) |
|
近年,多くの機械学習・データマイニングの問題が2つの確率密度関数の比を用いて定式化できることが示されてきている.例として,非定常環境適応や外れ値検出,条件付き確率密度推定,特徴選択,独立成分分析などが挙げられる.そのため,2つのデータセットから確率密度関数の比を推定する確率密度比推定の研究が盛んに行われるようになってきた. 素朴な確率密度比推定の手法として,2つの確率密度関数の推定を行いそれらの比を取るという方法がある.しかし,カーネル密度推定を初めとするノンパラメトリックな確率密度推定手法の高次元データへの適用が困難なこと,および2つの推定値の比をとることで推定誤差が拡大されることから,この方法は実用的とは言い難い.このため,確率密度関数の推定を介さずに確率密度比を直接推定する手法が複数提案されている.これらの手法では確率密度関数の推定を回避することで推定精度を向上させることに成功している. しかし,高次元データに対する確率密度比の推定は依然として困難な問題である.本研究の目的は,高次元データに対する確率密度比推定の精度を向上させることである.非定常環境適応や外れ値検出などの問題では,2つの確率密度関数は一部の部分空間上でのみ異なることが多い.このような場合,2つの確率密度関数が異なる部分空間を抽出し,その部分空間の中で確率密度比を推定することで確率密度比推定の精度を向上させることができる. 従来手法として,2つのデータの分離可能性を最大化する部分空間を探索する手法がある.しかし,この手法はある特定の条件下でしか正しい部分空間を見つけることができなかった.この問題を解決するため,本研究では2つの確率密度関数の間のピアソンダイバージェンスを最大化する部分空間を探索する手法,LHSS(Least-squares Hetero-distributional Subspace Search)を提案する.そして提案手法の優位性を人工データ実験および外れ値検出実験によって示す. |
|
|
P074 |
多様体正則化を用いたペアワイズ分類器の半教師付き学習 [概要][資料] |
ディスカッション |
小山 聡(京都大学), 鹿島 久嗣(東京大学) |
|
2つのデータ間にある関係が成り立つか否かを予測するペアワイズ分類器は、オブジェクト識別、リンク予測、協調フィルタリングなど、様々な問題で用いられる。ペアワイズ分類器の学習において、一般にラベル付きデータは作成にコストがかかるが、ラベルなしデータはデータを組み合わせることで大量に得ることができる。本発表では、多様体正則化を用いて、少数のラベル付きデータと大量のラベルなしデータからペアワイズ分類器を学習する方式を提案する。さらに、大量のラベルなしデータを用いた学習を可能にする最適化方式についても議論する。 |
|
|
P081 |
候補系列抑制による高速系列データマイニング [概要][資料] |
ディスカッション |
水上 紘悠(山梨大学), 岩沼 宏治(山梨大学) |
|
本研究では,単一の長大な系列データから有用な部分系列を抽出することを目的とし,段階的に有用系列の抽出を行うアプリオリ型アルゴリズムを対象に,抽出過程で生成される膨大な数の候補系列を抑制して高速化を図る手法について考察する.既存の候補系列抑制法の一つに,Parkらによるハッシュを用いた手法があるが,この手法はトランザクションデータベースを対象としている.その為,本研究で対象とする単一の長大な系列データへと修正し,更に幾つかの拡張を行った.従来手法との比較実験を行い本提案法の有用性を示し,抽出した系列の中身について考察を行う. |
|
|
P085 |
A self-organizing state space approach to infer time-varying causalities between regulatory proteins [概要][資料] |
ディスカッション |
広瀬 修(東京大学), 清水 謙多郎(東京大学) |
|
A number of methods based on time-dependent state space models have beenproposed to infer time-varying causalities between proteins or genes. All of suchtime-dependent state space approaches so far are based on Markov switchingmodels. These approaches enable us to detect drastic changes of gene regulatorynetworks. However, they are not suitable for the case that the mechanism ofdata generation changes more frequently; activities of regulatory proteins variesceaselessly by protein phosphorylation, ATP-binding and so on. To overcome suchlimitation, we propose a self-organizing state space approach to infer causalitiesbetween regulatory proteins, which change at successive time points. The effectiveness of our approach will be presented through applications for cell cycle data. |
|
|
P088 |
多タスク学習のための二次錘計画法 [概要][資料] |
ディスカッション |
加藤 毅(お茶の水女子大学), 鹿島 久嗣(東京大学), 杉山 将(東京工業大学), 浅井 潔(東京大学) |
|
互いに関係する複数のタスクがあるとき,これらを同時に解くほうが個別に解くより有効である場合がある.互いに関係する複数のタスクを同時に解くアプローチは多タスク学習 (MTL) と呼ばれる.本発表では,新しい MTL 算法を提案する.提案法では,タスク間の関係を局所的に保持させる.これによってすべてのタスク間の関係が類似した解を得ることが保証される.この考えをサポートベクトルマシンに適用すると,その学習算法は二次錘計画問題であらわされる.また,順序回帰,リンク予測,協調的フィルタリングに多タスク学習の枠組みを導入して,実験によってそれらの応用で本手法が有効であることを示す. |
|
|
P093 |
Co-Clustering による協調フィルタリングと属性ベースフィルタリングの統合 [概要][資料] |
ディスカッション |
麻生 英樹(産業技術総合研究所) |
|
ユーザの嗜好やニーズにあったコンテンツやサービスを推薦するための手法として、多くのユーザの過去の評価の間の関係性を利用する協調フィルタリングと、対象となるコンテンツの属性、ユーザの属性と評価の間の関係性を利用する属性ベースフィルタリングが提案され、それらの欠点を補完するための統合手法も検討されてきた。本発表では、機械学習の分野で提案されている Co-clustering の考え方に基づいて、協調フィルタリングと属性ベースのフィルタリングを統合する手法を提案し、その有効性を検証する。 |
|
|
P103 |
スパース構造学習によるボットネット検知の検討 [概要][資料] |
ディスカッション |
村上 慎太郎(九州先端科学技術研究所, 九州大学), 濱崎 浩輝(九州先端科学技術研究所), 川喜田 雅則(九州大学), 竹内 純一(九州大学), 吉岡 克成(横浜国立大学), 井上 大介(情報通信研究機構), 衛藤 将史(情報通信研究機構), 中尾 康二(情報通信研究機構) |
|
ネットワークトラフィックデータからボットネットを検出する手法を検討する。ボットネットはボット感染PC からなるネットワークであり、外部からの命令により一斉に協調し活動する。ボットは感染者に発見されないよう、通信量を低く抑える傾向があるためボットによる通信はボットネット以外の通信の揺らぎに埋もれてしまう。そのため、個々のホストの通信パターンを見るだけではボットネットの検出は困難となっている。本研究の目的は情報通信研究機構の保有するダークネットにおいて観測される世界各国のホストからの通信履歴から、ボットネットを検出する手法を確立することである。個々のボットの通信量は小さいため、個々の通信パターンを見るのではなく通信間の協調構造を共分散行列によって捉える手法を試みる。この場合、扱うべきパラメータ数がホスト数の二乗のオーダーとなる。しかしボットの活動時間が短いため、本質的にサンプル数を多くとることができない。よって一般には高精度の推定は難しい。そこでこのような小標本かつ高次元に対して有効であることが知られているスパース構造学習の適用を試みる。本研究では[2] と同様にスパース構造学習として実行速度が速いことで知られるglasso[1]を用いる。各時刻における協調構造に対応する行列をglassoによって推定する。このときボットによる通信とバックグラウンドによる通信は独立であること、および同じボットネットに属するボットによる通信同士は等しいことを仮定する。この仮定のもとでは、ボットによる通信が発生すると、ボットのペアに対応する共分散全てにほぼ同等の変化が生じると考えられる。ここに着目してアラームを上げる手法を提案し、NICT保有の実データにより評価する。[1]Friedman,et al,2008.Sparse inverse covariance estimation with the graphical lasso. Biostatistics 9(3),432-441[2]Ide,et al,2009.Proximity-Based Anomaly Detection using Sparse Structure Learning.SIAM International Conference on Data Mining, pp.97-108 |
|
|
P106 |
隠れマルコフカーネルマシンを用いた系列データの識別とその音素認識タスクへの適用 [概要][資料] |
ディスカッション |
久保 陽太郎(早稲田大学), 渡部 晋治(NTT), マクダーモット エリック(日本電信電話株式会社), 中村 篤(日本電信電話株式会社), 小林 哲則(早稲田大学) |
|
系列パターンの識別問題において,Support Vector Machine (SVM)に系列カーネルを組み合わせる手法が成果を上げている.SVMは実数ベクトルの線形の識別モデルであるが適切なカーネルと組み合わせることで,系列データの識別および非線形の識別を行なうことができる.その一方で,音声認識器では拡張性に対する要件から,隠れマルコフモデル (Hidden Markov Model; HMM)に基づく生成モデルによる識別器が広く利用されている.HMMに基づく高精度な識別器を得るために,正則化付きの識別基準の最適化に基づく学習法 (識別学習)が導入されたり,混合数の大きい混合分布による出力分布表現が利用されたりしてきた.しかし,大きな混合分布の識別学習は過学習の問題が生じやすく,また混合数の増大により,最適化の局所解に収束するリスクが高くなることが知られている.混合分布を用いて非線形識別を実現するモデルにおいて充分な混合数を持つ出力分布を用いることは,適切な識別を行なうために必要不可欠であるが,以上の理由により大きな混合分布の利用は避けられてきた.そこで本研究では,混合分布による非線形識別の実現を避け,カーネル法によって非線形の識別を実現することを考える.提案法はSVMによる手法と異なり,HMMと同様の構造を持ち,HMMと同様の拡張性を保ったまま,出力分布に相当する関数のみをカーネル法で拡張することで得られるカーネルマシンである.提案法を用いることで混合分布の利用を避けることが可能になるため,混合に起因する局所解や過学習を避けることができる.HMMをカーネル法で拡張するため,提案法ではHMMの出力分布として正規化されていない指数分布を利用し,Viterbi近似を導入することで,線形のスコア関数を得た.このようにして得られた線形のスコア関数を持つモデルを最小相対エントロピー識別学習の枠組みで識別的に最適化することによってカーネル関数で表せる双対問題を導出することが可能になる.提案法の評価のため孤立音素認識実験を行なった.適切なカーネル関数を用いることで,提案法が既存のHMMを上回ることを確認した. |
|
|
|