AbstractClub - 英文技術専門誌の論文・記事の和文要約


[インデックス] [前の年] [次の年]


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.1


局所若しくは大域最小値:柔軟な双対フロント動的輪郭法
Local or Global Minima: Flexible Dual-Front Active Contours

Hua Li, IEEE, Anthony Yezzi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 1-14 , January 2007

Keywords: Active contours, curve evolution, dual front evolution, morphological dilation, local minima, global minima, minimal path technique, level set methods, fast sweeping methods, image segmentation.

殆どの変分法的動的輪郭(アクティブコンター)モデルは、データ依存エネルギー汎関数の局所最小値を見つけるように設計されている。またこれらの方法は、ノイズや複雑な画像構造による望ましくない構成を避けるための“好ましい”局所最小値に向かって、動的輪郭が推移するように、動的輪郭の初期位置が決められるという希望(前提)に基づいている。ノイズやテクスチャに関する感度が極端に悪いエッジに基づいたエネルギー汎関数にくらべて、好ましくない局所最小値をもたらすことが少ないと思われる複雑な領域に基づいたエネルギー汎関数の設計に関する多くの研究が行なわれてきた。残念ながら、これらの“より頑健な”領域に基づいたエネルギー汎関数の適用可能画像種類は、典型的なエッジに基づいたエネルギー汎関数のそれに比べてかなり限定されている。これは後者が適用可能画像データに関してより強力な大域的前提を持つためである。既に提案されている画像に基づいたエネルギーに関して、より大域的な最小値を検出するための動的輪郭のための新しい実装法を工夫することで、局所最小値への感度を考慮することなく特定のエネルギーのクラスが合理的になりうるエネルギーを選択することができる。このような実装方法が大域最小値を見つけるために既に提案されている。しかし局所的過ぎる最小値と同じように、完全に大域的な最小値もやはり望ましいものではない。本稿では、新しい高速且つ柔軟な動的輪郭法の双対フロント的実装を提案する。これは最短パス技術と高速走査アルゴリズムを利用することに動機付けされている。このアルゴリズムを用いることで簡単に様々な局所性及び大域性の“度合い”を持つ最小値を算出することができる。単純にアクティブな領域のサイズを調整することで、(動的輪郭/表面の初期位置に従い)より局所性の高い最小値から、より大域性の高い最小値にスムーズに移行する能力により、このモデルはより簡単に“好ましい”最小化器(往々にしてこれは最大の局所性も最大の大域性も持たない)を得る。様々な二次元及び三次元画像における実験と、幾つかの動的輪郭モデル、及び領域成長法との比較により、様々な分割アプリケーションにおける本モデルの特性と性能を例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


孔と稜:レベル3特徴を用いた高解像度指紋照合
Pores and Ridges: High-Resolution Fingerprint Matching Using Level 3 Features

Anil K. Jain, IEEE, Yi Chen, IEEE, Meltem Demirkus, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 15-27 , January 2007

Keywords: Fingerprint recognition, high-resolution fingerprints, minutia, Level 3 features, extended feature set, pores, ridge contours, hierarchical matching.

詳細な指紋摩擦隆線(fingerprint friction ridge)は一般的に3つの異なるレベルの階層的順序で記述される。このレベルとは即ちレベル1(パターン)、レベル2(マイニューシャ点(指紋隆線の端点:訳者注))、そしてレベル3(孔と稜線)である。実際の指紋検査官は、レベル3の特徴を個人同定の助けとして利用することが多いが、自動指紋認証システム(Automated Fingerprint Identification Systems:AFIS)は現時点ではレベル1及びレベル2の特徴のみに基づいている。実際にはFBI (Federal Bureau of Investigation:アメリカ連邦捜査局)のAFISのための指紋画像解像度の標準は500ppi(pixels per inch)であり、これは孔などのレベル3の特徴を得るのに充分ではない。指紋センサー技術の発達により多くのセンサーが二つの解像度(500ppi及び1000ppi)のスキャン能力を持っている。しかしスキャン解像度の向上のみでは、必ずしも指紋照合性能の向上は見込めない。実際には照合に使用する特徴セットの拡張が必要である。このため、レベル3特徴をAFISに導入することにより、どれだけの性能向上が見込めるかについての系統だった調査が必要とされている。1000ppiの指紋画像から抽出された、3つのレベル全ての特徴を利用した階層的照合システムを提案する。ガボールフィルターとウェーブレット変換を用いて孔と稜線を含むレベル3特徴を自動的に抽出し、反復的最近点(Iterative Closest Point :ICP)アルゴリズムを用いてこれらを局所的に照合する。我々の実験によりレベル3の特徴が、顕著に識別性の高い情報を持つことが示される。レベル1及び2の特徴に加え、レベル3特徴を利用した場合、レベル1及び2のみを用いた場合に比べ相対的に20%の等価エラー率(equal error rate:EER)の減少が見られる。様々な品質の指紋画像において、この顕著な性能向上が見られる。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中国語から台湾語への手話合成のための単語整列の結合最適化と補間画像生成
Joint Optimization of Word Alignment and Epenthesis Generation for Chinese to Taiwanese Sign Synthesis

Yu-Hsien Chiu, Chung-Hsien Wu, IEEE, Hung-Yu Su, Chih-Jen Cheng

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 28-39 , January 2007

Keywords: Taiwanese sign language, language translation, sign language synthesis, video concatenation.

本研究では中国語手話から台湾語手話への翻訳と、手話ビデオの合成のための新しいアプローチを提案する。手話翻訳のために、整列された中国語手話と台湾語手話(Taiwanese Sign Language:TSL)の二ヶ国語コーパスも提示する。これには言語及び手話に関する情報も付与されている。シンタックスレベルとフレーズレベルの2経路の整列を開発し、これにより中国語センテンスと台湾語手話シーケンス間の最適な整列を行う。手話ビデオの生成に関しては、動きの遷移のバランスがとれた手話ビデオを開発するためにスコア関数を導入する。これにより生成された手話ビデオは、手話で意味を成す手のポーズ(手話サイン)間の遷移に豊富なバリエーションを持つ。最後に、2経路単語整列の結合最適化に基づいて、事後確率最大化法(maximum a posteriori:MAP)アルゴリズムを用いて手話ビデオと手話サイン間補間画像の生成を行う。教育分野における幾つかの実験により、手話表現の理解力に関する評価を行った。提案アプローチは手話翻訳におけるIBM Model 2を凌駕する性能を発揮した。更に、聴力障害のある複数の生徒が、提案手法により生成された手話ビデオの品質について満足のいくものであったと述べている。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフ埋め込みと拡張:次元性削減のための一般的フレームワーク
Graph Embedding and Extensions: A General Framework for Dimensionality Reduction

Shuicheng Yan, IEEE, Dong Xu, Benyu Zhang, Hong-Jiang Zhang, IEEE, Qiang Yang, IEEE, Stephen Lin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 40-51 , January 2007

Keywords: Dimensionality reduction, manifold learning, subspace learning, graph embedding framework.

次元性削減問題の様々な解法を開発するために、過去数十年以上にわたり、教師あり、教師なし、統計や幾何学からの派生、を含む多くのアルゴリズム体系が設計されてきた。これらのアルゴリズムは異なった動機により開発されたものであるが、本稿では、これらを共通の定式化で統合するための一般的フレームワークを示す。これはグラフ埋め込みとして知られている。このグラフ埋め込みでは、それぞれのアルゴリズムを、直接グラフ埋め込み若しくは特定の内部グラフの線形/カーネル/テンソル拡張としてみなすことが出来る。この内部グラフは、あるデータセットの、特定の、所期の統計的特徴若しくは幾何的特徴を記述する。この特徴は、同時にスケール正規化からの拘束条件、若しくは回避するべき統計的若しくは幾何的特徴を特徴付けるペナルティグラフを持つ。更に、このグラフ埋め込みフレームワークは、新たな次元性削減アルゴリズムを開発するための一般的なプラットフォームとして利用可能である。このフレームワークをツールとして利用することで、我々は周辺フィッシャー解析(Marginal Fisher Analysis:MFA)と呼ばれる新たな教師付き次元性削減アルゴリズムを提案する。この方法では、内部グラフにより、クラス内のコンパクトさを実現し、データ点と同じクラスに属する近傍のデータ点をつなぐ。ペナルティグラフは周辺のデータ点をつなぎ、クラス間の分離性を実現する。MFAが実際に線形判別分析(Linear Discriminant Analysis: LDA)アルゴリズムの典型的な限界を克服できることを示す。これはデータ分散に関する仮定と利用可能な投影方向に起因するものである。実際の顔認識実験により、本稿で提案するMFAの、LDAに対する優位性、及び対応するカーネル手法及びテンソル拡張に対する優位性を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


頑健なマルチターゲット追跡のための時空間コンテキスト
Spatio-Temporal Context for Robust Multitarget Tracking

Hieu T. Nguyen, IEEE, Qiang Ji, IEEE, Arnold W.M. Smeulders, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 52-64 , January 2007

Keywords: Multitarget tracking, context-based tracking, probabilistic PCA.

マルチターゲット追跡問題では、主な課題は、隠蔽がある場合や、ターゲット間の差異が乏しい場合にもターゲットを正しく同定することである。本稿ではコンテキスト情報を利用することによる、この問題に対する新しいアプローチを提案する。画像系列におけるターゲットのコンテキストは2つのコンポーネントを持つ。即ち局所背景と近傍の他のターゲットを含む空間コンテキストと、これまでに示された全てのターゲットの外観を含む、時間コンテキストである。本稿ではこれら両方のコンテキストを考慮に入れる。我々は空間コンテキストを利用したターゲットの識別に基づいたマルチターゲットの追跡のためのモデルを提案する。この追跡器は、近傍の他のターゲットを避けつつ、ターゲットに類似する領域を検索する。時間コンテキストは、確率論的主成分解析(probabilistic principal component analysis:PPCA)に基づいたターゲットの外観の全履歴の統合に含まれる。全てのPPCAパラメタのセットを正確にオンラインで学習することが出来る新しい漸増スキームを開発した。実験により、強度の散乱や隠蔽、そして姿勢の変化などの条件下でも、提案手法が頑健な追跡性能を持つことを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外観を学習することによる人間の追跡
Tracking People by Learning Their Appearance

Deva Ramanan, IEEE, David A. Forsyth, IEEE, Andrew Zisserman, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 65-81 , January 2007

Keywords: People tracking, motion capture, surveillance.

非限定環境下における視覚問題とは即ち、ビデオ系列を入力として、複数の人間の相関関係を自動的に追跡することである。この問題は、フレーム内の人間の数と、それらの構成の推定の両方を決定する必要があるため困難である。人間が素早く且つ予測不可能に動くものであり、また様々な姿勢、服装で現れること、また更に往々にして四肢の形状に類似した散乱を持つ背景に囲まれていることから、人間の位置とその四肢の位置決めは困難である。2段階で働く完全自動システムを開発した。このシステムはまずビデオ中の各人間の外見モデルを作成し、次に各フレームでのこれらのモデルの検出により、追跡を行なう(“モデル作成と検出による追跡”)。モデルを作成する2つのアルゴリズムを開発した。ひとつはボトムアップアプローチで、ビデオ系列で検出された候補体節をまとめる方式である。また、キーとなる姿勢をビデオ系列から見つけることによる、人間モデルの自動形成を行なうトップダウンアプローチについても説明する。最後に背景の構造を活用するがゆえに(背景削除をしなくても)、外見の判別モデルが非常に効果的であることを示す。これらの結果として得られる追跡器を、数十万フレームに及ぶノーテーション無しの室内及び室外の活動、feature-lengthフィルム(”Run Lola Run”)、そして古典的なスポーツフィルム(“2002ワールドシリーズと1998冬季オリンピック”)に適用し例証する。実験により我々のシステムが1)明確な人間の数をカウントできること、2)それらを同定し追跡できること、3)例えばある人間が隠蔽されたり、僅かの間画像の外に出ているなどの場合などから追跡を回復できること、4)体の構成を正確に同定できること、5)人間の動きの特定のモデルに依存していないことを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


対応関係を必要としないアフィン基礎行列の決定
Correspondence-Free Determination of the Affine Fundamental Matrix

Stefan Lehmann, IEEE, Andrew P. Bradley, IEEE, I. Vaughan L. Clarkson, IEEE, John Williams, IEEE, Peter J. Kootsookos, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 82-97 , January 2007

Keywords: Computer vision, epipolar geometry, fundamental matrix, robust estimation, projection-slice theorem, Radon transformation.

基礎行列推定は、コンピュータビジョンにおける中心的な課題であり、両眼立体視や動きからの構造復元などのタスクの基礎をなすものである。既存のアルゴリズムは、両方の投影で同定された対応付特徴点の相対的幾何を解析するのが一般的である。自動化された特徴マッチングはそれ自体が非常にチャレンジングな課題である。通常これらのアルゴリズムの出力は多くの偽対応を含む。従来の基礎行列推定法は、この偽対応に大きく影響される。そのため頑健な統計推定方法をこの問題に適用することになった。本研究では、この基礎行列推定問題に対する、全く新しいアプローチを提案する。対応特徴点の幾何を解析する代わりに、統合投影(Integral Projection)の利用により、周波数領域においてこの問題を再定義する。これは本研究で採ったモデルが如何に合理的なものであるかを示している。これにより本稿で扱う問題が、周波数領域において対応するラインを見つける問題に簡単化される。重要なのは、この簡単化により、特徴マッチングや情報対応が必要なくなることである。実データおよび合成データ両方における実験結果により、提案アルゴリズムが基礎行列推定のための実用的な手法であることを示す。提案アルゴリズムの動作は入力情報に含まれるノイズ、特徴数、および他の注目するパラメタにより変化する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明による影響を受けない画像比較のための、表面に依存した表現
Surface Dependent Representations for Illumination Insensitive Image Comparison

Margarita Osadchy, IEEE, David W. Jacobs, IEEE, Michael Lindenbaum, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 98-111 , January 2007

Keywords: Image comparison, Illumination, Gaussian random surface,Whitening.

本稿では、同一のシーンを異なる照明条件撮影したかどうかを見極める画像マッチングの問題を取り扱う。表面特性が、用いられるべき画像比較方法の種類を決定することを示す。以前の研究では、一方向に急激に変化する金属特性の表面のために、画像輝度勾配方向を比較する方法の有効性が示されている。2つのよく用いられている技法を解析的に紹介する。ひとつは小さい窓関数の正規化相関であり、他方はマルチスケール方位性フィルタの比較である。これらは本質的には同一の特徴を計算している。これにより特性がゆっくり変化する表面のためには、白色化フィルタの出力の比較がもっとも効果的であることを示す。これは、一般的なオブジェクトの比較のためには、これらの戦略の組み合わせを用いるべきであることを示している。ガボールジェット(Gabor jets)は、このような混合戦略を効果的に採るが、われわれはさらに新しい混合戦略を提案する。合成画像と実画像において我々の研究結果を検証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不確実性解析による二値画像統計登録に基づいたアプローチ
A Statistics-Based Approach to Binary Image Registration with Uncertainty Analysis

Katherine M. Simonson, Steven M. Drescher, Franklin R. Tanner

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 112-125 , January 2007

Keywords: Registration, edge and feature detection, nonparametric statistics, uncertainty, "fuzzy,” and probabilistic reasoning, image processing and computer vision.

エッジ抽出された画像の登録のための新しい手法について述べる。画像登録に関しては非常に多くの研究がすでに行われてきたが、その解と解の統計的確信度によって明確に定義された尺度を含むアプローチは稀である。このような尺度は自動化アプリケーションにおいて必要不可欠である。(ボケた画像や、雲により不明瞭になった地形などを含む)疑わしい画像登録に基づいた手法と、(高度に構造化されたシーンの明瞭な画像に基づいた)信頼できる手法とを区別しなければならない。本研究で開発した手法は直線エッジ画素マッチングを利用し、変換候補のクラスの中から“最良のもの”を見つける。McNemarテストと呼ばれる既に確立された統計手順を適用し、他の解の候補が、この最良のものに比べても顕著に悪いわけではないことを示す。これにより登録パラメタの空間において確信度領域の構築を行う。このアプローチをシミュレーション実験により検証し、多数の困難なシナリオでの応用における例を示す。このアルゴリズムの適用範囲は二次元変換問題を解くことに限定されているが、より高次の(剛体、アフィン)変換問題の解法の検証における本アルゴリズムの利用を例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元オブジェクトと、そのデジタル画像からの再構成の間の位相幾何的等価性
Topological Equivalence between a 3D Object and the Reconstruction of Its Digital Image

Peer Stelldinger, Longin Jan Latecki, Marcelo Siqueira

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 126-140 , January 2007

Keywords: r-regular, topology, digitization, 3D, marching cubes, trilinear interpolation, well-composed.

デジタル化とはその見かけほど容易なわけではない。サンプリング頻度が高いグリッドにより三次元オブジェクトをデジタル化したとしても、再構成されたデジタルオブジェクトは位相幾何的なゆがみを持っている。一般的にハウスドルフ距離(Hausdorff distance)に対する上界は存在しない。このことが位相幾何的性質の維持を保証するアルゴリズムが見つかっていない理由を示している。しかし本稿で示すように、デジタル化された画像を局所有界な方法で修復することは可能である。これによりデジタルオブジェクトはその元になった三次元オブジェクトに対して位相同形かつ近い形状を持つようにする。結果として得られるデジタルオブジェクトは常に良好に構成される。これは多くの画像解析で頻繁に生じる問題を解消するのに都合がよい。さらにオリジナルの三次元オブジェクトの表面が、マーチングキューブアルゴリズムの結果と位相同形になっていることを示す。これは、単純なr-レギュラーオブジェクトのデジタル画像に対しては、よく知られたマーチングキューブアルゴリズムによる再構成の位相幾何問題が起きないことを示しているため、実に驚くべきことである。三線補間(trilinear interpolation)に基づいて、デジタル画像からオリジナルの表面と同じ幾何特徴を持つ滑らかな等価面(isosurface)を構成する。最後に、驚くほど単純な位相幾何特徴を保持する再構成法を示す。この方法では立方体ボクセル(voxel:オブジェクト構成要素:訳者注)の代わりに重複部分を持つ球を用いる。これは位相幾何特徴の保持を保証し、かつ幾何的歪みの上界を与えることのできる、最初の三次元オブジェクトデジタル化アプローチである。本アプローチの出力を、純粋なボクセル表現、球体の結合、三線補間による再構成、滑らかな等価面、もしくは対毎の線形マーチングキューブ表面のいずれかとして選ぶことができるため、結果を多くの画像解析アルゴリズムに直接適用することができる。さらに、デジタル化された情報を見ることで、如何に効率的に三次元オブジェクトの体積と表面領域を推定できるかを示す。デジタル化されたオブジェクトの体積と表面領域の測量は、三次元画像解析において重要な問題である。高性能な推定器はマルチグリッド収束性を持っているべきであり、これはつまりサンプリング密度を上げていけば誤差がゼロになるということである。本稿で示したすべての再構成法が体積推定に使用できることを示し、マルチグリッド収束性表面領域推定の、さらに難しい問題に対する解法を与える。我々の解法は単純なボクセルカウントに基づいており、表面領域の絶対的有界性を与えることができる最初の方法である。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正確かつスケーリング可能な表面表現と画像からの復元
Accurate and Scalable Surface Representation and Reconstruction from Images

Gang Zeng, IEEE, Sylvain Paris, Long Quan, IEEE, Francois Sillion, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 141-158 , January 2007

Keywords: Computing methodologies, image processing and computer vision, reconstruction and applications, patchwork representation and reconstruction, space carving, graph-cuts, level-sets, patch-wise carving, patch-wise propagation.

パッチワークと呼ばれる新しい表面表現方法を導入する。これにより複数の画像からの三次元表面の再構成能力を拡張する。パッチワークは、各個に組み上げられるいくつかのパッチの組み合わせである。この設計により、細部の詳細さを保ったまま任意の大きさの次元を持ったオブジェクトの再構成を可能とする。この戦略により、再構成されるオブジェクトの次元と独立した空間複雑性、およびオブジェクト領域のサイズに線形な時間複雑性を達成できることを形式的に示す。前者の特性により、ストレージを使い尽くすことがないことが保証され、後者はオブジェクトの再構成が適当な時間内で可能であることを意味する。更にパッチワーク表現は、閉じた表面(closed surface)と開いた表面(open surface)の両者を等しく扱うことを示す。多くの既存の手法は、特定のシナリオに限定される。つまり閉じた表面もしくは開いた表面のいずれかに対する解法となっており、両者に対するものではない。パッチワークコンセプトと、表面再構成のために選んだ手法とは相異なるが、これら二つからなるフレームワークで既存のほとんどの最適化技術をカバーすることができる。このアプローチの可能性を示すために、2つのアプリケーションを提案し、これにより我々の方法が、最小カットに基づいた最近の正確なグラフ手法を如何に劇的に拡張するかを示す。最初に一般的なカービング法(carving technique)を調べる。これにより、与えられた問題を、ボクセル空間のトレーサビリティが実現できる良好に定義された再構成問題に落とし込むことができる。表面伝播(surface propagation)による詳細な幾何情報を達成するために、如何に高度に複数の画像ベースの基準を組み合わせられるかについても示す。これらの二つの例はパッチワーク表現の多機能性と柔軟性を示している。これらはパッチワーク表現から引き継いだ他の性質も強調している。それは即ち、いくつかの最小カット法は複雑な形状を取り扱うのが難しい(例えば複雑なトポロジーの形状など)が、これら二つの例では、パッチワーク表現により本質的な性質を保持するために、いかなる幾何情報も自然に扱うことができる。ここで示したパッチワーク表現の特性と再構成を、実画像系列により証明する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


N点デジタルディスクの数(The Number of N-Point Digital Discs)
The Number of N-Point Digital Discs

Martin N. Huxley, Jovisa Zunic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 159-161 , January 2007

Keywords: Digital disc, digitization, enumeration, digital geometry.

デジタルディスクとは、与えられたディスク内にある全ての整数点の集合である。{\cal D}_{N}が、N点(変換により異なる)よりなる様々なデジタルディスクの数であるとする。最近になってこの数に対する上界{\cal D}_{N} = {\cal O}(N^{2})が判ったが、対応する下界はまだ判っていない。本稿ではこの上界を正しい桁を持つと見られる{\cal D}_{N} = {\cal O}(N)に洗練させる。更に\overline{\cal D}_{N} = \left({\cal D}_{1} + {\cal D}_{2} + \ldots + {\cal D}_{N}\right)/Nの平均が上界と下界を持つこと、これらがNの多項式的成長となることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


データ次元性削減のための特徴サブセット選択とランク付け
Feature Subset Selection and Ranking for Data Dimensionality Reduction

Hua-Liang Wei, Stephen A. Billings

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 162-166 , January 2007

Keywords: Dimensionality reduction, feature selection, high-dimensional data.

特徴選択とランキングための新たな教師なしforward orthogonal search(FOS)アルゴリズムを紹介する。この新しいアルゴリズムでは、特徴が一つ一つ段階的に選ばれる。測量空間における特徴全体を現すための特徴サブセットから特定の候補を選び、その能力を推定することで、特徴の選択が行われる。特徴間の依存性を測量するための基準として二乗相関関数を利用し、これにより本アルゴリズムの実装を容易にしている。効果と効率性をうまく両立したフォワード直交化(forward orthogonalization)戦略により、本アルゴリズムは明確に物理的解釈可能な効率的な特徴サブセットを算出することができる。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


主要セットとペアクラスタリング
Dominant Sets and Pairwise Clustering

Massimiliano Pavan, Marcello Pelillo, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 167-172 , January 2007

Keywords: Clustering, quadratic optimization, evolutionary game dynamics, image segmentation, perceptual organization.

クラスタの直感的コンセプトと頂点の主要な集合のコンセプトの間の類似性に動機付けされた、ペアデータクラスタリングのための新しいグラフ理論的なアプローチを開発する。ここで主要セットとはエッジ重み付けグラフの最大完全サブグラフの概念を一般化したものである。主要セットと、標準的なシンプレックスをカバーする二次形式の極大値とを対応付ける。これにより、進化論的ゲーム理論から得られる、順当かつ簡単に実装可能な連続最適化手法を利用することが可能となる。様々な点の集合と画像分割問題における計算的実例により提案アプローチの潜在的能力を確認する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


決定木集団生成技法の比較
A Comparison of Decision Tree Ensemble Creation Techniques

Robert E. Banfield, IEEE, Lawrence O. Hall, IEEE, Kevin W. Bowyer, IEEE, W.P. Kegelmeyer, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 173-180 , January 2007

Keywords: Classifier ensembles, bagging, boosting, random forests, random subspaces, performance evaluation.

我々は実験的に、決定木識別器の集合を生成するためのバギング(bagging)法とその他の7つのランダム化に基づいたアプローチを評価する。57の一般的に入手可能なデータ集合からの実験結果に対して統計テストを実施した。統計的有意性のテストのために交差検定(cross-validation)の比較を行ったところ、最良の方法がバギングよりも統計的有意に正確であるのは、57のデータセットの内、わずか8つに過ぎなかった。もうひとつの選択肢として、アルゴリズムの平均ランクをこのデータセットの組で試験し、ブースティング法、ランダムフォレスト法、確率木法は統計有意にバギング法よりも良い結果を示した。適当なサイズの集合を用いることが重要であると我々の実験結果は示している。そのため、ある集合に対して充分な数の識別器が生成されたことを検出するアルゴリズムを導入する。我々のアルゴリズムは、バッグの外にデータ点が落ちる誤りを推定し、バギングを集合の構成に組み込む、これらの方法のための精度の高い集合をもたらすことが示される。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎な分布をする点および法線データからの変分法的表面補間
Variational Surface Interpolation from Sparse Point and Normal Data

Jan Erik Solem, IEEE, Henrik Aanas, IEEE, Anders Heyden, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 1, pp. 181-184 , January 2007

Keywords: Variational methods, computer vision, level set method, shape from specularities, multiple view stereo, surface interpolation.

既知のビューからの表面再構成のための多くの視覚手がかり(visual cue:視覚キュー)は自然界に散在している。テクスチャのない領域を除いて、例えば鏡面性、表面シルエット、そして顕在特徴などがこの例に当てはまる。しばしばこれらの手がかりは観察者にとって唯一の情報である。これらの拘束条件を、ピクセル毎の類似性などの強度の拘束条件と結合して用いるか、単独で用いるか、いずれかの方法で利用するために、これらの拘束条件を変分法的フレームワークにおいて定式化する。表面が特定の点を通過することを強制するレベルセットフレームワークにおける疎な変分法的拘束条件および、観測されたビューの方向に沿った表面の法線に対する疎な変分法的拘束条件を提案する。これは鏡面性などの性質に沿うものである。これらの拘束条件により、極度に疎なデータから表面を再構成することができる。鏡面性からの形状復元問題において本アプローチを適用・検証してきた。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.2


漢字に依存しない一文字のフォント認識
Character Independent Font Recognition on a Single Chinese Character

Xiaoqing Ding, Li Chen, Tao Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 195-204 , 2 2007

Keywords:

本論文では、未知の漢字一文字だけを使った、文字に依存しないフォント認識の新規なアルゴリズムを提案する。文字画像のウェー ブレット変換を施し、変換した画像からウェーブレット特徴を抽出する。Box-Cox変換と線形判別分析の後、フォント特徴量を抽出し、 各クラス1つだけのプロトタイプを使って変形2次距離関数(MQDF; Modified Quadric Distance Function)によって識別する。実験に よれば、我々のアルゴリズムで1文字を対象として90.28%の認識率を、5文字を対称とする場合は99.01%を達成できた。従来法に比 べ、我々は未知の1文字だけを使っているので、認識率が高いだけでなく、柔軟性も高くロバストでもある。更に言えば、本アルゴリズム では僅かなレベルではあるが、大きな背景ノイズに埋もれた判別可能な信号を抽出可能である。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


セグメント分離した隠れマルコフ法によるオンライン手書き形状認識
Online Handwritten Shape Recognition Using Segmental Hidden Markov Models

Thierry Artieres Sanparith Marukatat Patrick Gallinari

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 205-217 , 2 2007

Keywords:

我々はオンライン手書き形状認識に対する新規な方法を研究した。この手法による興味ある学習対象特徴量としては、マニュアルに よる調整をしないで、非常に少ないサンプルから学習するとともに、文字の漸進的な学習、ユーザーの特殊ニーズに適合させることも 含まれる。ここに提案するシステムとしては、ラテン文字、アジアの文字、ジェスチャーによる指令、記号、小さな図形、幾何学的形状 を対象とする。これは多くの用途向けの認識業務のための構成要素としても使える。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非剛体のクラス内検索:顔認識への応用
Intraclass Retrieval of Nonrigid 3D Objects: Application to Face Recognition

Georgios Passalis Ioannis A. Kakadiaris, Theoharis Theoharis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 218-229 , 2 2007

Keywords:

3Dオブジェクトの収集データが増えるに従い、鍵となる操作はデータベース処理となってきた。大量のデータは予めタイプごとに(例 えば、人の顔、車、4つ足動物)分類されている。ここで一般的なオブジェクト検索法はクラス内での検索課題には適してない。このよう なクラス内検索には高精度を達成するために基本的なクラス特徴量を活用した特殊化した方法が必要であることを主張する。オブジ ェクトの形状モデルをパラメータ化しこれを注釈として付けた新規な3Dオブジェクト検索法を紹介する。これには主要な特徴量も取り 込む。注釈付き部分分割法モデルは、変形可能なモデルの枠組みを利用したクラスのオブジェクトに適しており、幾何学的画像に変 換されたり、ウェーブレットドメインに変換される。オブジェクトの検索はウェーブレットドメインで行われる。この手法ではユーザーの関 わりは不要であり、高精度が達成でき、そのため大規模なデータベースの利用が可能で、非剛体オブジェクトに適している。この手法 を顔認識のコンテスト、Face Recognition Grand Challenge v2のデータベースとして利用し、誤認識0.001で平均正解率95.2%を達 成した。この最新結果は以下を参照:(http://www.cbl.uh.edu/UR8D/)

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形Lambertianオブジェクトの見かけ特徴、一般化された測光学的ステレオ、および、照明不変の顔認識
Appearance Characterization of Linear Lambertian Objects, Generalized Photometric Stereo, and Illumination-Invariant Face Recognition

Shaohua Kevin Zhou, Gaurav Aggarwal, Rama Chellappa, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 230-245 , 2 2007

Keywords:

従来の測光学的ステレオアルゴリズムでは変化するアルベド(反射係数;albedo)場とともに、Lambert反射モデルを利用するが、この モデルではオブジェクトは1つだけ存在する。本論文では、測光学的ステレオアルゴリズムを一般化し、1つのクラスのすべてのオブジ ェクトを扱う。特に、線形Lambert特性を利用した人の顔のクラスを対象とする。線形Lambertオブジェクトは、基底オブジェクトの組によ って張られた線形空間内でLambert表面を有するオブジェクトである。この線形特徴によってランクが決まり、その結果、異なる、あるい は、未知の照明下での、異なるオブジェクト(異なる対象物の顔など)の見本画像からなる観察行列の因子分解が得られる。積分可能 性や対称条件から、部分空間基底を完全に復元することができたが、これには変化するアルベド場を考慮した新規な線形アルゴリズ ムが利用された。線形Lambert性の性質の有効性は照明不変の顔認識問題(画像は1枚のみ)に利用し、更に調べられた。陰影があ る場合は、モデルを利用し、Lambert法則による固有の非線形性を慎重に処理した。これによって我々のアルゴリズムを多数の照明条 件下での顔認識に拡張することが可能となった。標準データに対する実験の結果も示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


生物に学ぶ高速回帰性動き推定アルゴリズム
A Fast Biologically Inspired Algorithm for Recurrent Motion Estimation

Pierre Bayerl Heiko Neumann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 246-260 , 2 2007

Keywords:

動き画像の分離のために、表層画像領域モデルV1と、背面の流れのより細かい神経動力学的モデルMTに分離するシステムを以前 開発した。このモデルでは動きによる開口の問題が、表層的メカニズムによって導入された動きの曖昧さによって解決できる様子を説 明している。整合的に運動する任意サイズのオブジェクトが皮質メカニズムによって解けることを示す。高い信頼性を有する生物学的 手法の実時間実装に伴う困難さは、ここでの、速度空間においてニューラル活性化を表現するメモリーが十分利用できるかどうかに架 かっている。我々は神経網の動き活性の検出に効果的な、疎に分布した符号化法を提案する。疎なネットワーク中で、我々のニュー ラルモデルの効率的な表層動き分離アルゴリズムの実装の枠組みにおける分離禁止やフィードバック変調をニューラルネット形式とし て実現した。このアルゴリズムはもともとのニューラルモデルと類似の動きを見せ実世界の映像系列から画像の動きを抽出できることを 示す。我々の研究によってニューラルネットワークで考えられていた皮質での動き計算の成果を、実時間性やハードウエア実装のよう な工学的に要求の高い形式に変換することに成功した。更に、提案された生物学的に着想したアルゴリズムが実現可能な時間内に 計算処理できるモデル化のツールを提供可能となった。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アンサンブル追跡
Ensemble Tracking

Shai Avidan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 261-271 , 2 2007

Keywords:

追跡問題をオブジェクトと背景の2つに分別し、オンラインで弱識別器の集合を訓練する2値識別問題を考える。この弱識別器集合は 、AdaBoost法を使って一つの強識別器と組み合わされている。この強識別器は次のフレームの画素がオブジェクトに属するか、背景 に属するかを識別するために利用され確信度マップを与える。このマップのピーク値はオブジェクトの新しい場所を示すが、平均シフト 法で見つける。追跡期間中に訓練された弱識別器によって集合を更新することで時間的な一貫性は保持される。この方法を実現し、 いくつかのビデオ画像で実演する。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


中間調画像の回転-スケール-不変識別のための連結形状サイズパターンのスペクトル
Connected Shape-Size Pattern Spectra for Rotation and Scale-Invariant Classification of Gray-Scale Images

Erik R. Urbach, Jos B.T.M. Roerdink, Michael H.F. Wilkinson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 272-285 , 2 2007

Keywords:

本論文では、連結演算子を利用した中間調画像の、パターンに基づく解析と識別のための多段スケールで多段形状の形態論的(モ ルフォロジー)手法を紹介する。構造の構成要素を利用する従来法と異なり、本方法は3つの利点がある。第1にパターンスペクトルを 計算する時間はスケールの種類や利用している形状の数には依存しない。つまり、計算時間はパターンスペクトルの次元には依存し ない。第2に、サイズと厳密な形状の属性は、2D形状とサイズの両方が結合したパターンスペクトルによって計算され利用される。第3 に、我々の手法はノイズに頑健であり、かつ、回転不変である。この回転不変性の近似は構造要素を異なる角度で利用することで達 成できるが、ただ計算時間はかかる。これら手法の識別能力は、4つの画像集合、Brodatz, COIL-20, COIL-100, および、珪藻( diatoms)を利用して考察した。この新規な方法は、従来の最高性能の方法に比べ5〜9倍の識別速度が得られる。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.



Shape Classification Using the Inner-Distance

Haibin Ling, David W. Jacobs

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 286-299 , 2 2007

Keywords:

部分構造や関節はコンピュータビジョンや人による画像認識にきわめて重要である。我々は内部距離を、オブジェクトのシルエット内 部を経由する特徴点間の最小距離と定義するが、この内部距離は関節の動きにも敏感過ぎることはなく、部分構造の把握にもユーク リッド距離よりは効果的である。このことから、内部距離はユークリッド距離に代わってもっと複雑な形状の高精度の記述法として、特に 関節構造をもつ箇所の記述法として利用できる。更に、最短経路に沿ったテクスチャー情報は、形状の詳細分類に役立つ。このアイ デアを利用して、内部距離を利用した3つの方法を提案する。第1の方法は内部距離と多次元スケール(MDS)を一緒にして、関節形 状のための関節に依存しない特徴量を構成する。第2の方法は形状コンテクストに基づく新たな形状記述子を内部距離で表す方法 である。第3の方法は最短経路に沿って第2の方法を拡張する方法である。この提案手法は、関節形状を含むデータ集合のMPEG7, CE-Shape-1, Kimia Silhouettes, ETH-80のデータ集合, 2枚の葉データ集合、人の動きのシルエットデータ集合に対して、テストさ れた。すべての実験で、我々の手法の効率が他の手法に比べて有効であることが実証された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


注視と特徴量を使った生物にヒントを得た高速情景識別法
Rapid Biologically-Inspired Scene Classification Using Features Shared with Visual Attention

Christian Siagian, Laurent Itti

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 300-312 , 2 2007

Keywords:

コンテキストに基づく動き回るロボットのための単純な情景認識法について述べ、検証する。このシステムは大学キャンパス内の色々 な場所の屋外情景について、初期視覚特徴を低次の特徴量ベクトルとして代表させ、多重スケール化したものを利用して識別した。 以前のアプローチとは異なり、このアルゴリズムは生物学的に尤もらしく、計算負荷も少なく、モデルとロボットが同一の演算していると 思われる低レベルの特徴量を採用した。我々はキャンパスの3地点において撮影した屋外風景、分類の精度を比較した。なお、各地 点のフレーム数は、13965フレームから34711フレームである。各地を9つのセグメントに分割し、各セグメント毎の識別率を実験したとこ ろ、84.21%から88.62%が得られた。すべての場所の情景画像をまとめ(全部で75073画像)、86.45%の精度で識別できたことから、 この手法の一般化とスケーラビリティの可能性を実証している。

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メディアンによる3Dの非整列点群のスカフォールド
The Medial Scaffold of 3D Unorganized Point Clouds

Frederic F. Leymarie Benjamin B. Kimia

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 313-330 , 2 2007

Keywords:

メディアンスカフォールド(足場 = scaffold)と呼ばれる、メディアンの点列を結んだ曲面によって構成されたグラフ形式の3D形状のメデ ィアン軸の階層的な構成について紹介する。このスカフォールドの主要な利点は、階層的で、かつ、密に凝集された表現で形状を定 量的に把握できることにある。我々は効率的で正確に、スカフォールド自身に沿って、フローの始点から伝播の間にスカフォールドを 構成していく方法を示そう。この手法を検討しながら、特に点列が整列してないレーザーによる距離画像の数百数千の3Dの点につい て考察するが、幾何学的に記述される表面パッチのデータに適するように一般化する。伝播に基づく手法における計算上のボトルネ ックは初期のフロー点を見つけることである。そのために不要なメディアンの点対を考える必要のないいくつかのアイデアを紹介する。 その中には、ある第3つの点から見ての「見かけ上」の点とか、点のクラスターの相互作用とかが含まれる。このようなメディアンスカフォ ールドによって現実の点のサンプリングへの応用例が図示されている。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


一対の画像からのMRFステレオ画像生成の最適パラメータの推測
Estimating Optimal Parameters for MRF Stereo from a Single Image Pair

Li Zhang, Steven M. Seitz

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 331-342 , 2 2007

Keywords:

MRF(マルコフ確率場)法によるステレオアルゴリズムのためのパラメータ推定の新規な方法を紹介する。この手法の原理は、ステレオ を最大事後確率(MAP)問題として捉えたことに特徴があり、差異マトリックスとMRFパラメータの両方をステレオ画像対から推定する。こ こに示すMAP推定のための逐次アルゴリズムは差異マップを合わせながらパラメータを推定し、また、パラメータを決めながら差異マ ップを推定するという繰返し法である。また、パラメータの推定には、データや隣接項だけでなく、正則化のための重みの切捨て操作 も含むものとする。この正則化の重みは全画像について一定か、あるいは、強度勾配に依存して空間的に変化するかのどちらかであ る。後者の場合、強度勾配のための重みの推定値も得られる。我々の手法は既存のステレオアルゴリズムの梱包器のような働きをし、 それは、グラフカットやビリーフカットや信頼度伝達法を使って、自動的にパラメータを調整し、パーフォーマンスを改善し、ステレオ符 号の変更は必要ない。実験からこの手法はMiddleburyランキングで6位の成績が納められた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


円形運動下でのカメラの較正のためのシルエットのコヒーレンス性
Silhouette Coherence for Camera Calibration under Circular Motion

Carlos Hernandez, Francis Schmitt Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 343-349 , 2 2007

Keywords:

カメラの較正のための完全で実用的な系を示し、回転テーブル上に置かれた彫塑品を未較正カメラで撮影したものから、デジタルコピ ーを復元する手法について紹介する。本論文では、3Dオブジェクトから作られたシルエット画像集合のシルエットのコヒーレンス性の コンセプトを紹介する。カメラの姿勢と焦点距離を復元するためにはシルエットのコヒーレンス性の最大化がどのように利用されたかを 示す。シルエットのコヒーレンス性は、よく知られた、シルエットから動きの再現や輪郭だけの再現のためのエピポーラ正接条件の一般 化と見なすことができる。さらに、シルエットのコヒーレンス性にはシルエットにコードされているすべての幾何学的情報を利用し、エピ ポーラ正接点だけでなく、点対応性や外接エピポーラが得られない場所での実用的な対応関係を利用する。シルエットのコヒーレンス 性を利用した効果的で信頼度のあるカメラの動き推定法を紹介する。このアルゴリズムを使って、非常に高精度の3Dモデルを、未較正 カメラによる円形運動の撮影画像列から再構成するが、このときエピポーラ正接点が得られないとかシルエットが途切れている場合で も許容する。このアルゴリズムは実用的システムに実装化され50個以上の未較正画像列を使って高精度の写実的なモデルを再生し た。本論文中には3つの例が示されている。このアルゴリズムは最新のエピポーラ正接性だけを利用したシステムと定量的に比較され ている。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


タックオイラーベクトル:強化されたビットプレーンに基づく中間調画像特徴
Stacked Euler Vector (SERVE): A Gray-Tone Image Feature Based on Bit-Plane Augmentation

Arijit Bishnu Bhargab B. Bhattacharya,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 350-355 , 2 2007

Keywords:

スタックトオイラーベクトル(Stacked Euler Vector =SERVE)と称する中間調画像の特徴づけのための組合せ特徴量を紹介する。この SERVEは4個組み(4-tuple)の要素から出来ている。この要素は整数で、中間調画像の最も重要な4つのビットプレーンのある種の画 素の重なり関係で形成される「部分2値画像のオイラー数」を示している。SERVEの計算は単純・高速で浮動小数点演算は不要であ る。SERVEによって画像検索の効率を著しく改善するために他の特徴量を強化するために使うこともできる。COILデータベースを対象 にした実験結果は検索効率の改善を示している。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


従来法の画像形成手段とピラミッド鏡を利用した高解像パノラマカメラのデザイン解析
Design Analysis of a High-Resolution Panoramic Camera Using Conventional Imagers and a Mirror Pyramid

Hong Hua, Narendra Ahuja, Chunyu Gao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 356-361 , 2 2007

Keywords:

広視野画像(FOV)で高解像度画像は多くの画像応用において求められている。ピラミッド状ミラーによる高解像度、単一視点、広角 画像取得システムについてはいくつかの報告がすでにある。2つのピラミッド状ミラーによるパノラマカメラのようなシステムにおいて、セ ンサーの利用効率や画像の均一性などのパノラマ広角画像系全般のピラミッド状幾何学的配置、撮像素子群の配置をどのように最 適化するかを調べた。解析は一般化可能で他のピラミッドミラー系の設計にも応用可能である。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


見かけ画像を基にしたモデルのための偏光マルチプレックスとデマルチプレックス
Polarization Multiplexing and Demultiplexing for Appearance-Based Modeling

Oana G. Cula, Kristin J. Dana, Dinesh K. Pai, Dongsheng Wang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 362-367 , 2 2007

Keywords:

偏光は従来から、表面から反射した光の成分の内、散乱光成分と鏡面反射光成分に分離するなどの色々な研究に利用されてきたが 、本研究においては、個々の光源から表面反射成分を分離するために利用できることを示そう。我々の手法は偏光マルチプレクシン グと呼ばれるが、これは照明光の方向が必要で、これによって画像の見かけは随分と異なって見える。多数の未知の方向の光源によ って情景が照明されているとき、全体に対する個々の寄与の割合を推測する。偏光マルチプレククスは光源の方向と強度変調に依存 する。この変換を逆変換することは個々の強度の割合が推測される必要がある。さらに偏光のマルチプレクシングをするためには、光 源の数と共に、強度変調からの位相ヒストグラムを利用して光源の数も推測が可能となることを示そう。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


「分離可能な複雑度の低い2D HMMの顔認識への応用」についてのコメント
Comments on "A Separable Low Complexity 2D HMM with Application to Face Recognition'

Lu Yu Lenan Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 28 , No. 2, pp. 368 , 2 2007

Keywords:

以前提案された、「分離可能な複雑度の低い2D HMMの顔認識への応用」は、隣接ブロックの関係として、条件付独立性が仮定され ている。著者の見るところ、この仮定は複雑度を落とすための鍵となる仮定となっている。この稿では、この仮定は全く不要であることを 示そう

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.3


画像特徴量検出のためのカラーモデルの選択と融合
Selection and Fusion of Color Models for Image Feature Detection

Harro Stokman Theo Gevers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 371-381 , 3 2007

Keywords: Color, learning, feature detection, scene analysis.

多くのコンピュータビジョンアルゴリズムにとってカラーモデルの選択は極めて重要であり(例えば、特徴検出、オブジェクト認識、追跡 )、選択されたカラーモデルは実際のアルゴリズムに同様のモデルを誘発する。実際可能なカラーモデルは多いが、特有な困難さは、 どうやって一つのカラーモデルを自動的に選択するのか、あるいは、特定の課題に対して最適な結果を引き出す部分カラーモデルの 重み付き部分集合をどのように作るかということになる。そして次のハードルとしては最適な設定の組合せにどのような融合概念を作り 上げることが出来るかと言うことだ。この適切なカラーモデルの選択と、特徴量検出アルゴリズムを達成するためには、本論文では、多 様化の原理から導かれたカラーモデルまたは特徴量検出アルゴリズム間の完全ではない相関を利用した手法を提案する。その結果 として、再現性と識別能力の適度なバランスが得られる。その結果は、最大の特徴量識別能力を示す重み付けが得られる。この方法 は3つの異なる画像特徴検出器によって実験的に実証された。実験結果から、融合法を使った特徴量検出結果は標準的な重み付け 法よりは高い識別能力を示した。さらに、実験的には、このカラーモデル選択法は、カラーの再現性と識別能力の適当なバランスも得 ることができる。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グレイ・コードフィルターカーネル
The Gray-Code Filter Kernels

Gil Ben-Artzi Hagit Hel-Or, Yacov Hel-Or

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 382-393 , 3 2007

Keywords: Image filtering, filters, filter kernels, convolution, Walsh-Hadamard, pattern matching, block matching, pattern detection

本論文では、グレイコードカーネル(GCK)と呼ばれるカーネルファミリーを紹介し、これを画像解析でどのように利用できるかを示す。グ レーコードカーネルによる画像のフィルタリングは非常に効率的で、画素当たり、カーネルのサイズや次元の大きさと無関係に、各フィ ルターカーネルについてたった2回の演算しか必要ない。我々はカーネルのファミリーは大きく、その中には特にウォルシュ・アダマー ルカーネルが含まれていること示す。GCKはどんな望みのカーネルも近似することが可能で、完全な表現を形成する。GCKフィルター 系列を使った計算効率は、パターン検出、特徴抽出、テクスチャー解析、テクスチャー生成、その他多くの実時間処理に応用が可能 である。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像の注釈付けと検索のための意味クラスの教師付き学習
Supervised Learning of Semantic Classes for Image Annotation and Retrieval

Gustavo Carneiro Antoni B. Chan Pedro J. Moreno Nuno Vasconcelos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 394-410 , 3 2007

Keywords: Content-based image retrieval, semantic image annotation and retrieval, weakly supervised learning, multiple instance learning, Gaussian mixtures, expectation-maximization, image segmentation, object recognition

画像の意味の注釈付けと検索のための確率論的定式化を提案する。注釈付けと検索は識別問題と見なされ、各クラスは、共通の意 味ラベルを持った画像データベースと定義できる。意味ラベルと意味クラスの間の1対1の対応を確立することによって、アルゴリズムと して1)理解が容易で、2)計算が効率的で、3)訓練画像の意味による分割の作業が不要な注釈付け間違いを最小化することが可能と なる。特に、画像が局所化された特徴ベクトルのクラスで表現でき、画像毎に混合密度推定や、対応する共通意味ラベルを有するクラ スの密度推定値としてプールされる。このプール化は複数インスタンス学習の論拠として正当化され、期待値最大化法を階層的拡張 版として効率的に実行される。もっと困難で、より人気の高い、意味ラベルと視覚的特徴分布の結合モデルに比べて、この教師付き学 習の定式化の利点が、理論的考察と、徹底的な実験によって図示されている。教師付きによる定式化は以前の既知の手法に比べ、 僅かの計算時間を犠牲にして高い精度が得られることが示される。最後に提案手法はパラメータの調整に対してロバストである。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


大脳皮質に似たメカニズムによるロバストなオブジェクト認識法
Robust Object Recognition with Cortex-Like Mechanisms

Thomas Serre Lior Wolf Stanley Bileschi Maximilian Riesenhuber Tomaso Poggio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 411-426 , 3 2007

Keywords: Object recognition, model, visual cortex, scene understanding, neural network

生物学に刺激され、複雑な情景を認識する新規で一般的な枠組みを紹介する。大脳皮質の視覚領域を詳細にたどる階層的機構に ついて述べ、テンプレートマッチングと最大プール化演算を交互に利用する徐々に複雑化した不変特徴量表現を構築する。この方法 の長所を認識問題で実証する:多数のオブジェクト中から、不変的単一オブジェクトを認識する課題から、多クラスの識別課題や複雑 な情景の理解のような形状だけでなくテクスチャーにも基づく認識課題も対象にしている。システムが満たすべき生物学的条件が与え られたとき、本手法は驚くほどうまく行く。このシステムはたった数個の例を示すだけで学習することが可能であり、最新技術に対抗す ることができる。またほとんどのオブジェクトカテゴリーを扱える特徴量辞書を普遍的に、冗長に持つことについても考察する。本技術 はコンピュータビジョンに適合するだけでなく、この手法が成功したという事実から、大脳皮質でのオブジェクト認識はフィードフォワー ドモデルが使われている可能性がある。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


不完全なデータの識別について
On Classification with Incomplete Data

David Williams, Xuejun Liao, Ya Xue Lawrence Carin, Balaji Krishnapuram

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 427-436 , 3 2007

Keywords: Classification, incomplete data, missing data, supervised learning, semisupervised learning, imperfect labeling

特徴ベクトルのデータの一部が欠落したような不完全なデータの問題について述べる。不完全なデータの識別の(教師付き)ロジス ティック回帰アルゴリズムを開発した。単一のあるいは複数の欠落データは、条件付推定密度関数による解析的積分によって補完で きる(観察データに基づく条件)。条件付密度関数はガウス混合モデルで推測可能であり、そのパラメータ推定は期待値最大法( Expectation-Maximization (EM))、および、変動ベイズEM法(Variational Bayesian EM (VB-EM))の両方が使える可能性がある。ここ に提案する教師付きアルゴリズムは、グラフに基づく規則化によって準教師付きアルゴリズムに拡張できる。この準教師付きアルゴリズ ムは入手可能な、完全であっても不完全であっても、ラベル付きであろうとそうでなかろうと、すべてのデータを利用する。提案する識 別アルゴリズムの実験結果を示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正準相関を利用した画像集合クラスの識別学習と認識
Optimal Separable Algorithms to Compute the Reverse Euclidean Distance Transformation and Discrete Medial Axis in Arbitrary Dimension

David Coeurjolly Annick Montanvert

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 437-448 , 3 2007

Keywords: Shape representation, distance transformation, reverse Euclidean distance transformation, medial axis extraction, d-- dimensional shapes

2値画像の距離変換(DT)と幾何学的スケルトンの抽出は形状認識の古典的道具である。本論文では、d-次元画像中で逆ユークリッド 変換と逆中心軸抽出の問題を解くための最適アルゴリズムを紹介する。ここで中心軸とは、対象とする形状中の最大球中心の集合で ある。さらに、再構築した品質を制御するためのd次元中心軸フィルタリング処理も紹介する。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


離散的曲線の発展を利用した輪郭分割によるスケルトン刈り込み
Skeleton Pruning by Contour Partitioning with Discrete Curve Evolution

Xiang Bai Longin Jan Latecki, Wen-Yu Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 449-462 , 3 2007

Keywords: Skeleton, skeleton pruning, contour partition, discrete curve evolution

本論文では、輪郭の分割を利用した新規なスケルトンの刈込み法を紹介する。これにはどんな輪郭分割法でも利用できるが、離散的 曲線発展法(Discrete Curve Evolution)がすばらしい結果を示す。この理論的性質と得られたスケルトンの実験的結果は、人間の視 覚的にとっても、ノイズの多い環境や形状の変動が大きい場合でも安定しており、位相学的にも原画と同じである。特に、この提案手 法は、一般的な枝刈り法では生じ易い偽枝を生じない。更に、提案手法はスケルトンの点の移動を生じない。その結果、すべてのスケ ルトン点は最大円板(多次元では最大球)の中心となる。しつこいが、多くの既存の刈込み法ではスケルトン点を変位させてしまうこと を強調しておく。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオの時空完結性
Space-Time Completion of Video

Yonatan Wexler, Eli Shechtman, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 463-476 , 3 2007

Keywords: Video analysis, texture, space-time analysis

本論文は、局所的構造の影響によって情報の欠落が生じ、この部分を完結させる新規な枠組みを提供する。この完結性は、厳密に 定義された目的関数によるグローバルな最適化問題と見なし、最適化のために新規なアルゴリズムを導く。欠損値は、参照例と整合 した構造を有すると見なされる。この手法を使って、複雑で動きのある時空中の大きな穴のあるビデオ画像を完結化させる。欠落部分 はビデオ中の時空の適当なパッチで埋められる一方、その穴の周辺においてグローバルな視点から整合性を取る。静的情景の部分 画像を整合性を持たせて補完すると同時に動的な動きにも対応させることで、ビデオや画像の本物らしい復元が得られる。この時空 補完法は以下のような用途に限らないが、有用と思われる例を挙げると、1)適当な静的・動的な背景による巧妙なビデオの部分カット (望ましくないオブジェクトのカット)、2)昔の映画の欠落・破損不糞の修復。3)望ましくない要素を除去して視的ストーリーを変更する 。4)小さなテクスチャーを拡大し新たなビデオテクスチャーを生成する。5)安定な視野の生成と完成。6)各画像は1フレーム別のビデ オなので、このような特殊な(1フレームの)場合にも応用できる。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数の動くオブジェクトを含む映像のセグメンテーション、モデル化およびマッチング
Segmenting, Modeling, and Matching Video Clips Containing Multiple Moving Objects

Fred Rothganger, Svetlana Lazebnik, Cordelia Schmid, Jean Ponce,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 477-491 , 3 2007

Keywords: Affine-covariant patches, structure from motion, motion segmentation, shot matching, video retrieval

多数の剛体オブジェクトを含む動的情景を対象に、これらオブジェクトがそれぞれ異なる動きをしたり、カメラの移動する条件下での新 規な表現法を与えるものである。多数のビューの条件として、アフィン変換がパッチ単位で共変であること、これらの正規表現を利用し た剛体の切り出しを行い、これら部品の3次元モデルを生成し、異なる画像系列中のモデルのマッチングを行う。この手法はビデオ映 像中の動く剛体の検出とマッチングに応用され、ビデオクリップ中の同一画像の同定に利用される。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特定ユーザー向けサンプルとブートストラップの結合利用によるバイオメトリック認証性能の一般化
Performance Generalization in Biometric Authentication Using Joint User-Specific and Sample Bootstraps

Norman Poh, Alvin Martin Samy Bengio

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 492-498 , 3 2007

Keywords: Biometric authentication assessment, DET, ROC, bootstrap subset

バイオメトリックスの認証性能はしばしば検出とエラーとのトレードオフ(DET)曲線によって表される。この曲線は入手可能なサンプル データベースや統計上の成分、人口的構成の選択に依存していることを示す。変動要因が3つあるので、2段階のブートストラップ手 続きを採用する。この手続きは、Belle たちのブートストラップの拡張に当たる。NIST2005 と XM2VTSに対するベンチマークデータベ ースに関する初歩的実験によれば、つまり、24個のシステム平均効率でみれば予想は有望であった。75個以上のDETの平均では NIST2005によってなされた平均効率は予想された通りであり、未知のDET曲線を有する8倍のユーザー数のデータに対して75%以 上のDETカバレッジを有する。さらに、我々の発見から、もしデータ数がもっと増えれば確信範囲はずっと狭くなることが予想され、より 使い易くなるだろう。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多数の球の画像によるカメラの較正
Camera Calibration from Images of Spheres

Hui Zhang, IEEE Kwan-Yee K. Wong, IEEE Guoqiang Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 499-502 , 3 2007

Keywords: Calibration, sphere, silhouette, surface of revolution (SOR).

本論文では球画像を利用したカメラの較正問題を解くための新規な方法を紹介する。球の双対画像と、絶対円錐の双対画像の関係 を利用して、2つの球の円錐画像に関する共通の極と極超平面はまた、IACに関する極と極超平面となっていることを示すことができ る。従ってIACを予測するために2つの制約条件を与えることが出来、少なくとも3つの球の画像があればカメラの較正式を解くことが出 来る。実験結果から、この提案手法の妥当性が示された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


kモードクラスタリング法における相違度の影響
On the Impact of Dissimilarity Measure in k-Modes Clustering Algorithm

Michael K. Ng Mark Junjie Li Joshua Zhexue Huang Zengyou He

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 503-507 , 3 2007

Keywords: Data mining, clustering, k-modes algorithm, categorical data

本論文はkモードアルゴリズムによるカテゴリー化できるデータのクラスタリング法の拡張について述べている。単純な相違度を変形し てカテゴリーデータに対応させることで、ヒューリスティックな手法が開発され、その結果kモード法が可能となり、カテゴリー内類似度 が高く、大きなカテゴリー集合の効率的なクラスタリング法が得られた。本論文の主要目的は、新規の相違度を利用した最新のkモー ドクラスタリング法を厳密に導き、最適化の枠組みの中で収束性を導くことである。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


直接曲率尺度空間:理論とコーナー検出
Direct Curvature Scale Space: Theory and Corner Detection

Baojiang Zhong Wenhe Liao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 3, pp. 508-512 , 3 2007

Keywords: Scale space, curve convolution, Gaussian smoothing, curvature, corner detection.

曲率尺度空間(CSS)法は、画像処理やコンピュータビジョンにおける最新の道具と見なされている。直接曲率尺度空間(DCSS)法は、 平面曲線の曲率にガウスカーネルを直接、畳み込み演算した結果として定義される。本論文では平面曲線のコーナー検出のために 、DCSSの理論的解析を示す。単一のコーナーや2つのコーナーのスケール空間での振る舞いを調べた結果、多くのモデルごとの特 性が特定され、DCSS画像を木構造に変換することが可能であり、コーナーは多段スケール処理で検出可能となる。また、DCSSのノイ ズ耐性を持たせるために、CSSとDCSSのハイブリッド戦略が良いかもしれない。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.4


バイオメトリックス特集号;進歩と方向性
Introduction to the Special Issue on Biometrics: Progress and Directions

Salil Prabhakar, Josef Kittler, Davide Maltoni, Lawrence O'Gorman, Tieniu Tan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 513-516 , 4 2007

Keywords: Biometrics, face, authentication, performance evaluation, random effects model, watch-list

バイオメトリックス(生体計測)による本人確認システムの評価はますます重要性が増しつつある。本論文はこれらシステムの性能評価をするための新規で統計的な手法を紹介する。既存のシステムと、その確認結果のデータベースが与えられたとき、階層的確率的効果モデルとベイズ推測手法を利用し、事後予測分布を求め、色々な説明変数を利用した誤り率による効率を予測する。説明変数と確率的効果の両方を利用して、本人確認システムがもともとテストされたデータベースとは異なる多人数で多様なグループに用いられたときの潜在的な誤り率を推測することが出来る。また、このモデルを拡張し、警戒状態にあるリスト上の誤報を、リストサイズに対する予想確率として出すこともできる。このシステムの応用として3つの顔確認システムを用意する:フィルターによるシステム、ガウス混合モデル(GMM)、顔非対称の周波数領域表現に基づくシステム。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的効果モデルを利用した生体認証システムの性能評価
Statistical Performance Evaluation of Biometric Authentication Systems Using Random Effects Models

Sinjini Mitra, Marios Savvides, Anthony Brockwell

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 517-530 , 4 2007

Keywords: Biometrics, face, authentication, performance evaluation, random effects model, watch-list.

バイオメトリック本人確認システムはますます普及しているがその性能を評価することも、より重要になりつつある。本論文はこれらシステムの性能評価のための新規な統計的評価法をここで紹介する。既存のシステムから本人確認結果のデータベースが与えられた場合、階層的確率効果モデルをベイズ推定法と共に用いて、事後推定分布が導け、いろいろな説明変数を用いて、誤り率による性能推定が可能となる。説明変数と確率効果の両方を取り入れて、この手法は、本人確認システムが最初に記録されていた以上の大きな事項に応用された場合とか、異なるグループに適用された場合の誤り率の予測が可能である。また、このシステムを警戒事項一覧表の偽の警報確率を、この表のサイズの関数として予測するよう拡張が可能である。我々は本システムを以下の3つのシステムに応用することを考える:フィルターを利用する方法、ガウス混合モデルに基づくシステム、顔対称の周波数空間に基づく方法である。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


バイオメトリック品質尺度の性能
Performance of Biometric Quality Measures

Patrick Grother, Elham Tabassi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 531-543 , 4 2007

Keywords: Biometrics, quality measurement, authentication, evaluation, performance measures.

バイオメトリックサンプルの品質をスカラーとして計算する定量的評価のための手法を報告する。システムのマッチング性能の定量的尺度が推定可能であるという必要性に基づいてこの研究は開始した。品質評価アルゴリズムは入力サンプルをスカラーとして出力するブラックボックスと見なした。これらの値と観察されたマッチング結果との関連性を定量化し評価した。我々は検出誤りのトレードオフと言う考えを更に前進させ、誤りと拒絶特徴をサンプルの定量化尺度として定義する。実験的に認識させて得られたスコアから得られた品質値を有する文章サンプル(コープス)に対して注釈付け処理を考慮することで、性能目標を強調する。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テンプレートから画像へ:指紋特徴点(マニューシャ)から指紋画像の復元
From Template to Image: Reconstructing Fingerprints from Minutiae Points

Arun Ross, Jidnya Shah, Anil K. Jain

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 544-560 , 4 2007

Keywords: Fingerprints, minutiae, templates, security, fingerprint reconstruction, line integral convolution, streamlines

ほとんどの指紋に基づくバイオメトリックシステムではデータベース中にユーザーのマニューシャのテンプレートを保存している。また、伝統的に想定されていたように、ユーザーの詳細特徴テンプレートには原指紋画像データの情報は決して含まれていない。本論文ではこのようなコンセプトに挑戦し、元の指紋画像に関する以下の3段階の情報が、マニューシャのみから導出できることを示そう;1) 方位場情報、2) クラスまたはタイプ情報、3) 指紋の峰(リッジ)構造、である。方位推定アルゴリズムは局所的リッジの方向を、3組の特徴点から導出する。推定方位場は、与えられた特徴点分布とともに、指紋のクラスの予測に利用される。最後に原指紋画像のリッジ構造は、推定方位場に基づく流線を利用して生成される。線積分コンボリューションを使って、これらリッジにテクスチャーを与え、その結果、原画像に類似したリッジマップが得られる。リッジを生成するための、この繰返しの不要な手法の特徴は、そのマニューシャを、再構成されたリッジマップ中の特定場所に保存することが出来ることである。市場にある指紋マッチングシステムを利用した結果、再構成されたリッジ構造は原指紋画像に非常によく似ていた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


キャンセル可能な指紋テンプレート
Generating Cancelable Fingerprint Templates

Nalini K. Ratha, Sharat Chikkerur, Jonathan H. Connell, Ruud M. Bolle

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 561-572 , 4 2007

Keywords: Fingerprint identification, image registration, cancelable biometrics, privacy, security.

バイオメトリックに基づく本人確認システムは、従来のパスワードを利用した方法や、トークンを利用した本人確認システムに比べて種々の利点を持つ。しかし、バイオメトリックにはいくつかのプライバシー上の問題点がある。バイオメトリックにはユーザーに永久に付属しており、変更は不可能だ。従って、バイオメトリックによる確認法が危うくなったときは、この手法は永遠に使えず、しかも、すべての用途に使えなくなる。更に、同じバイオメトリックを使う用途同士で、追跡される危険性がある。本論文では、これらの問題に対処するため、指紋から多数の取消し可能な識別子を生成する方法を紹介する。本質的には、利用者は必要な数だけ変換「鍵」として識別子を与えられる。危うくなればこの識別子は捨てて更新すればよい。マニューシャを生成するいくつかのアルゴリズムの性能を実験的に比較した;直交座標畳み込み変換、極座標畳み込み変換、表面畳み込み変換、など。多くの実験によってバイメトリックスの取替え可能性が可能であること、バイオメトリックスデータベースのクロスマッチングの防止できることが示された。また、あてずっぽうな推定法による識別子の逆変換では、この逆変換が困難であることが、実験的に示された。このような実験結果と理論的解析から特徴レベルの取消し可能なバイオメトリックの構成は大規模な展開にも可能であると結論付けた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2Dフーリエ展開に基づく指紋方向のモデルと、この特異点検出と指紋インデクス付けへの応用
A Fingerprint Orientation Model Based on 2D Fourier Expansion (FOMFE) and Its Application to Singular-Point Detection and Fingerprint Indexing

Yi Wang, Jiankun Hu, Damien Phillips

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 573-585 , 4 2007

Keywords: Fingerprint orientation, Fourier expansion, singular points, fingerprint indexing, fingerprint authentication

本論文では2Dフーリエ展開(FOMFE)に基づく指紋方向のモデルを提案する。FOMFEには特異点の予備知識は不要である。これによってノイズの多い画像であっても特異点を含むリッジの位相を継ぎ目なく表現することが出来る。市場で入手可能なデータベースに対する統計的実験によれば、このFOMFE法は、指紋の画像特徴の抽出精度が著しく向上し、その結果、指紋のマッチング精度も大きく向上する。更に、FOMFEは計算量が少なくて済むため、大きなデータベースに対しては効率的となる。FOMFEは方向性特徴量に対する広範な表現能力があり、従って指紋のような特徴量に基づく応用には利点が多い。原画の方向方位データを利用するほとんどのインデックス法を使ってFOMFEモデル係数による特徴量ベクトルを生成した。我々のインデックス化実験によると、異なる指紋データベースで、顕著な結果が見られた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


DCTに基づく虹彩認識
DCT-Based Iris Recognition

Donald M. Monro, Soumyadip Rakshit, Dexin Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 586-595 , 4 2007

Keywords: Biometrics, iris recognition, discrete cosine transform, image preprocessing, statistical analysis

本論文は、正規化された虹彩画像から作られた、円周角方向にオーバーラップしたパッチ画像の離散的コサイン変換(DCT)係数に基づく新規な虹彩(アイリス)コード法について述べる。DCT画像の特徴抽出能力は、市場で得られる最大規模の2つのデータベースに最適化されており、その1つはCASIAと呼ばれる目、308個分の2156画像であり、他方はBathデータベースの150個の目の2955画像である。本データについて、100%の正解率を得、間違って認可や、拒絶はなかった。個々の特徴量のビットやパッチの位置パラメータはマッチングのために最適化され、和積標準形(product-of-sum)によってハミング距離を計算する。確認のために距離尺度とに可変閾値が導入され、誤許容率、誤拒否率が記録される。新たに最悪尺度が提案されるが、これはマッチングの失敗が存在しない場合の実用的なシステム効率を予測するとともに、最悪の理論的な等誤り率(Equal Error Rate (EER))が入手可能なデータ集合において2.59×10^{-4}と低く予測された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


変形した虹彩画像のパターンマッチングにベイズ法を利用する
A Bayesian Approach to Deformed Pattern Matching of Iris Images

Jason Thornton, Marios Savvides, B.V.K. Vijaya Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 596-606 , 4 2007

Keywords: Pattern matching, image processing, iris recognition, statistical models for pattern recognition

虹彩パターンのように平面内の非線形な変形を受けたマッチングパターンのための一般的で確率的な枠組みについて述べる。一対の画像が与えられたとき、2つの相対的変形度合いを表すパラメータの最大事後確率(MAP)の推定値を求める。我々の推定プロセスはでは2つのことを同時に完了させる:パターン変形を正規化し、2つの非線形変形画像パターンの類似度を測るための変形耐性のある類似度尺度を返す。変形パラメータの事前確率はパターン形式に特異的であり、そのため、一般的な任意の確率分布に比べてより高精度のマッチング結果が得られるはずだ。我々はこの提案手法は、変形したパターンの実画像の虹彩データベースを有するシステムによる本人同定にうまく適していることを示す。この変形ベイズマッチング法を利用することで、マッチング精度が大きく向上することを示す。さらに、変形の大きさを推定するための余計な計算量は比較的少なく、実時間システムに向いていることを示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非協力的虹彩認識:多数の署名画像を利用した識別法
Toward Noncooperative Iris Recognition: A Classification Approach Using Multiple Signatures

Hugo Proenca Luis A. Alexandre

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 607-612 , 4 2007

Keywords: Iris classification, noncooperative iris recognition, biometrics

本論文は非協力的な虹彩認識に焦点を当てている。つまり、画像はやや遠くから撮影され、照明条件も協力的ではなく、ユーザーの積極的な寄与もない。これによって、画像取得が非常に不均一になり(焦点、コントラスト、照明など)、虹彩の障害物とか反射とかのいくつかのノイズ要因が加算される。現在の虹彩認識システムはノイズの多いデータには適応できなく、誤り率が顕著に増加する。特に、この環境での誤りによる拒絶が増加する。セグメント化されたり正規化虹彩画像を6つの領域に分割し、各領域から独立な特徴量の抽出が可能で、各領域の比較が可能であり、虹彩の識別ルールからこれらの相違度の尺度を結合することができる。実験によると、ノイズの多い虹彩画像において40%以上の誤拒否率の低下が見られた。

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


熱赤外スペクトル画像の生理学に基づく顔認識
Physiology-Based Face Recognition in the Thermal Infrared Spectrum

Pradeep Buddharaju, Ioannis T. Pavlidis, Panagiotis Tsiamyrtzis, Mike Bazakos

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 613-626 , 4 2007

Keywords: Face recognition, biometrics, physiology, thermal infrared, vascular network

現在の顔認識方法は、皮膚の上に現れている顔特徴量に依存している。これらの特徴量のうちのいくつかは永続性が低く、時間と共に変化する可能性があるし、照明などの環境によって著しく変化する。多くの手法はこれら問題点を色々な程度で指摘してきた。しかし、現在の顔認識研究の枠組には、その性質上潜在的弱点がある。我々は生理学情報に基づく新規な枠組みを紹介する。この研究の動機は皮膚の下にある生来の特徴量の永続性を利用することである。この可能性を確立するために生体熱画像から得られる生体熱情報を得る方法を提案する。まず第1に、このアルゴリズムはベイズ法によって背景から人の顔を描写する。次に、画像の形態情報から表面の血管の位置を決定する。正確な血管ネットワークは各個人毎に固有である。抽出された、各個人に特有な特徴的輪郭形状を持っている。表面血管の枝別れする点は、熱特徴点と呼ばれ、特徴量データベースを構成する。骨格表現した血管ネットワークの分岐点は熱指紋特徴点(Thermal Minutia Points (TMPs))と呼ばれ、これが特徴量データベースを構成する。これを顔のポーズ変化にロバストにするために各課題ごとにデータベース中に5つの異なるポーズの画像を蓄えた(中央、中央左、左、中央右、右)。この識別ステージにおいて、アルゴリズムはこの最初にテスト画像のポーズを推測する。識別の段階では、本アルゴリズムは最初にテスト画像のポーズを推定する。次に、テスト画像から抽出された構造と、データベース中のポーズ画像とをマッチングさせ、局所的、全体的なTMPの構造にマッチさせる。わが研究所で収集した生体熱顔画像の多目的データベースだけでなく、ノートルダム大学のタイムギャップデータベースに対してもマッチング実験を行った。その結果が良いことから、我々の提案する方法は、特に時間的に永続性が低い対象に対して利点があることが分かった。更に大切なことは、実験からは顔認識において生理学的枠組みでの認識が可能であること、本分野での更なる手法や実験研究の道を開拓した。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


近赤外画像を利用した照明光に依存しない顔認識
Illumination Invariant Face Recognition Using Near-Infrared Images

Stan Z. Li, RuFeng Chu, ShengCai Liao, Lun Zhang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 627-639 , 4 2007

Keywords: Biometrics, face recognition, near infrared (NIR), illumination invariant, local binary pattern (LBP), statistical learning

現在のほとんどの顔認識システムは室内用に設計されており、協力的ユーザーに向いている。しかし、このような制限付き利用でもほとんどの既存システムは、研究用や商業ベースを含め、環境による照明条件によって妥協が必要である。本論文では、室内での協力的ユーザーに対する、照明条件によらない新規な解決法を紹介する。第1に、環境における可視光に依存せず、好条件で顔画像が得られる能動的近赤外画像形成手段を示す。第2に、このようにして得られた顔画像には、顔本来の情報がコードされており、単色の中間調変換だけの影響を受ける。そのため、単色変換を補うために局所2値パターン特徴量を利用する。その結果照明に依存しない顔の表現が得られた。そして、近赤外を利用した顔認識法を紹介するが、これは、多くの不変特徴量候補の中で最も効果的な特徴を抽出するための統計的学習アルゴリズムについて紹介する。最後に、我々が達成することができた高精度で高速の実用的顔認識システムについて述べる。この中で、能動的近赤外光による眼鏡上の鏡面反射光は重大な問題点であるが、これを処理できるようにするため、徹底的で、かつ、比較実験によって撮像ハードウエアを評価し、顔と目の検出アルゴリズムを評価し、顔認識アルゴリズムとシステムを評価するが、その評価項目としては、照明、眼鏡の有無、経過時間、人種などがある。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


表情が変化する場合の3次元顔認識:注釈付き可変モデル法
Three-Dimensional Face Recognition in the Presence of Facial Expressions: An Annotated Deformable Model Approach

Ioannis A. Kakadiaris, Georgios Passalis, George Toderici, Mohammed N. Murtuza, Yunliang Lu, Nikos Karampatziakis, Theoharis Theoharis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 640-649 , 4 2007

Keywords: Face and gesture recognition, information search and retrieval

本論文では、3次元顔認識のための計算用ツールとハードウエアプロトタイプを紹介する。進歩した多段の整列アルゴリズムと適当な前処理ステップによる3D情報入力装置による顔情報の不変性、変形可能なモデルの枠組みの採用による顔の表情の弾力性を利用することで、全自動化が可能となった。さらに、3Dの顔走査をコンパクトなメタデータに変換することで、時間と空間の両面での拡張性が得られた。我々の結果を紹介するが、これは一般に得られる今までで最大の数千の走査画像からなる顔認識挑戦用3D顔データベースである。我々の知る限り、3Dのためのこのデータベースは最高の性能を示す報告である。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グローバルに最大化し、局所的に最小化:顔と掌のバイオメトリックス応用のための教師なし判別投影
Globally Maximizing, Locally Minimizing: Unsupervised Discriminant Projection with Applications to Face and Palm Biometrics

Jian Yang, David Zhang, Jing-yu Yang, Ben Niu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 650-664 , 4 2007

Keywords: Dimensionality reduction, feature extraction, subspace learning, Fisher linear discriminant analysis (LDA), manifold learning, biometrics, face recognition, palmprint recognition

本論文は教師無しの判別投影(UDP)法の開発に関するもので、その目的はサンプル数が小さいとき、高次元のデータを低次元に投影することにある。UDPは局所的だけでなく非局所的な量の両方を考慮する枠組みである多数の多様体に基づく線形近似と見なすことができる。UDPは局所的分散と非局所分散の両方を特徴づけ、非局在分散を最大化すると同時に局所分散を最小化するような投影を見つける。この特長によって、クラスタリングや類別のために局所保存投影法のような局所的散乱のみを考慮する多くの最新手法に比べ、UDPはより一層直感的で強力な手法となった。本提案手法は顔や掌によるバイオメトリックスへの応用であり、Yale, FERET, AR顔画像、および、PolyU 掌紋データベースを利用して試験した。実験の結果UDPは一貫してLPPやPCAを凌駕し、クラス当たりのサンプル数が少ないときはLDAをも凌駕した。このことから、本手法は、実際のバイオメトリック用途には向いていることが示された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


類似度のスコアの解析によって、顔認識システムの性能を予想しモデル化する
Modeling and Predicting Face Recognition System Performance Based on Analysis of Similarity Scores

Peng Wang, Qiang Ji, James L. Wayman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 665-670 , 4 2007

Keywords: Face recognition, similarity scores, performance modeling, performance prediction, image quality

本論文は類似度の解析から、顔認識(FR)システムの性能をモデル化し予想する方法を提案する。ここではFRシステムの性能として認識精度と定義し、この性能に影響する因子として固有因子と外部因子の2つを考える。FRシステムの固有因子としては画像データ、FRアルゴリズム、および、チューニングパラメータなどが考えられる。外部因子としては、主として、提示する画像の状態がある。性能もデルとしては、「完全認識」という概念を提案し、これから性能尺度を抽出する。これは、完全認識尺度(PRSS)、および、固有因子に対するFRシステムの性能と関連させて抽出する。PRSSの性能尺度を導入することで、FRアルゴリズムパラメータをオフラインで最適条件近くまでチューニングすることができる。提示(query)画像から抽出される性能尺度は、顔の位置合せパラメータをオンラインで調整し、性能を更に向上させることに利用できる。提示画像に対するFRシステムのオンライン性能予測のために、実際の認識類似度スコアから特徴量と対応PRSSが抽出できる。このような特徴量の利用によって、個々の提示画像が正しくFRシステムにマッチングされれるかどうかがオンラインで予想でき、これによって正しくないマッチングの割合を減少させることができる。実験からFRシステムの性能は、上記手法によって著しく改善した。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


高性能の回転不変多数像中の顔検出
High-Performance Rotation Invariant Multiview Face Detection

Chang Huang, Haizhou Ai, Yuan Li, Shihong Lao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 671-686 , 4 2007

Keywords: Pattern classification, AdaBoost, vector boosting, granular feature, rotation invariant, face detection

多数画像中の回転不変顔検出(MVFD)は、平面内任意回転や平面から外れた回転された静止画像やビデオ画像中の顔を検出するのが目的である。MVFDは一般的な顔画像の応用のための自動的顔処理をするときの最初のステップとして極めて重要であるが、協力的なユーザーでない限り、正面でまっすぐな顔画像は滅多に得られないからである。本論文では、色々な革新的手法を用い、高性能な回転不変の多数画像中の顔検出器を提案するが、それらの中には、幅優先探索(Width-First-Search (WFS))木構造検出器や、ベクトル出力の強識別器を学習するためのベクトルブースティングアルゴリズム、ドメイン分割による弱学習器、粒状空間における疎な特徴量、特徴量が疎らなため、これを選択するためのヒューリスティック探索法などがある。その結果、我々の多数画像中の顔検出器は、標準的テストデータに対しても、実生活の画像に対しても、少ない計算量で、検出範囲は広く、高精度なものが得られた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチモードの生体特徴を使った連続的認証
Continuous Verification Using Multimodal Biometrics

Terence Sim, Sheng Zhang, Rajkumar Janakiraman, Sandeep Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 687-700 , 4 2007

Keywords: Pattern recognition, biometrics, fusion, verification

機密室へのアクセスを制御するような従来の認証システムでは、保護された資源に連続してアクセスしているような場合に、何度も認証を要求されることはなかった。保護された資源が、認められてない使い方をされるために権限の無い人に連続的にモニターされるような場合で、しかも高度なセキュリティを要求される場合には十分ではないであろう。このような場合、連続的な認証が必要である。本論文では、絶えずログインするユーザの存在を認証することができる、マルチモードの生体認証システムとそのための理論、アーキテクチャー、実装、性能を紹介する。ここでは顔と指紋の2つのモードを持っているが、この理論は、もっと多くのモードを持ったシステムに拡張することは容易である。我々は、連続的認証のためには、従来の認証システムに比べて、マルチモードの融合に対する余分な制約条件が加わることを示す。さらに、通常の性能尺度である誤認識率や間違った拒絶率は、連続認証には基準として不十分であることを議論し、新しい尺度を提案し、これを我々のシステムでベンチマークした。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テキスト特徴量と異文字特徴量を利用したテキストに依存しない著者同定とその妥当性
Text-Independent Writer Identification and Verification Using Textural and Allographic Features

Marius Bulacu, Lambert Schomaker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 701-717 , 4 2007

Keywords: Handwriting analysis, writer identification and verification, behavioral biometrics, joint directional probability distributions, grapheme-emission probability distribution

手書き文字の走査画像から個人を識別できることは、法廷や歴史的な書類解析などの用途にも利用可能な生体認証技術であるが、動作に基づく生体認証における典型的研究分野を成している。我々は手書き文字画像から抽出した特徴量の確率分布関数を利用した、新規で極めて有用な自動的著者同定手法を開発した。我々の手法の特徴は手書き文字サンプルのテキスト内容とは独立であると言うことだ。我々の手法は2段階の解析から成っている:テクスチャーレベルと文字形状(書体)の2つである。テクスチャーレベルでは、個々の手書き文字スタイルの個性である輪郭線の方向と曲率を符号化した結合方向確率分布を利用する。我々の解析では異字体解析著者はインクと筆跡の断片である記号列によって著者が特徴付けられているとの認識に立っている。これらの手書きサンプルの形状は著者の特徴を持っており、これは共通の形状コードブックによって計算される。方向、形状、ランレングス確率分布などの多数の特徴量を併せることで、著者の同定性能が向上する。高い信頼性の推定に必要な手書き文字サンプルは多くは得られないと言う仮定の元に、この手法は自由な手書き(草書体でも孤立体でも)に応用可能で、実用性がある。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3Dでの人間の耳の認識
Human Ear Recognition in 3D

Terence Sim, Sheng Zhang, Rajkumar Janakiraman, Sandeep Kumar

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 718-737 , 4 2007

Keywords: 3D ear biometrics, 3D ear identification, 3D ear verification, range and color images, surface matching

最近研究者の注目を集めている生体認識特徴として人間の耳がある。本論文では3D耳特徴を使った完全な人間の耳の認識システムを提案する。認識のためには、1つの耳の形状モデルを使い、登録された2Dと3Dの距離画像中の耳のhelix(耳廓外縁から前に向かって巻いて曲がっている部分、耳たぶの外周形状)、antihelix(対耳輪上・下脚以下の主体部分、耳孔を取り囲む凸部の形状)を使った新規な手法を利用する。これには耳のhelix/antihelixの表現法である特徴点を表現するための局所表面パッチ法も含まれる。局所表面記述にはセントロイド、局所表面型、2Dヒストグラムで特徴づけされる。2Dヒストグラムには形状インデックスの出現頻度と参照特徴点の法線と隣接法線の間の角度がある。両方の形状表現には当初の展示サンプル(gallery sample)と精査モデル(probe)対の厳密な変換推定に利用される。この変換は、展示サンプルの耳の位置のどれに相当するかを選択し、変形逐次最近接点を利用して順次変換式の精度を上げ、平均2乗誤差のルートによる最小値評価による最良の位置合せをもたらす。これを使った155項目、902画像を有するUCRデータに対する姿勢を変化させた実験結果と、302項目、経時展示(time-lapse gallery-probe)対のノートルダム大学のデータに対する実験結果を示し、本アルゴリズムとシステムが効率的であることを示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


脳の電位活性によるバイオメトリックス:機械学習法の適用
Biometrics from Brain Electrical Activity: A Machine Learning Approach

Ramaswamy Palaniappan, Danilo P. Mandic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 738-742 , 4 2007

Keywords: Biometrics, EEG gamma band, Elman neural network, MUSIC, k--nearest neighbors, visual evoked potential

視覚的刺激に対する応答として生成された脳の電気活性の潜在力は、個人同定に利用可能かどうか調べた。特に、視覚で想起された電位(VEP)に基づくバイオメトリックスが確立し、このなかで、VEP信号中でガンマバンドのエネルギー特徴量が特に興味深い。以前の実験結果と統一し、あるいは、拡張した詳細な解析の結果、1)バンド幅の増加、2)空間平均、3)よりロバストなパワースペクトル特徴量、4)識別精度の向上が見られた。大規模なグループに対するシミュレーションの結果もこの解析を支持するものであった。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


脳波と事後最大モデル適応を利用した個人の認証
Person Authentication Using Brainwaves (EEG) and Maximum A Posteriori Model Adaptation

Sebastien Marcel Jose del R. Millan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 4, pp. 743-752 , 4 2007

Keywords: Emerging technologies, electroencephalogram, biometry, signal processing, probabilistic algorithms, machine learning

本論文では、脳の活性を利用して個人認証の可否を調べる。以前の研究から各個人の脳波パターンはユニークであり、脳波図(EEG)はバイオメトリックによる個人認証に利用可能であることが示されていた。EEGによるバイオメトリーは現在研究テーマの一つであるが、将来、新しい応用分野を開くであろう。しかし、この分野の研究は少なく、主として個人同定が目的になっており、個人認証ではない。個人認証は、その人が同一人物であると言えるか言えないかを判定することであり、一つのバイオメトリックデータをサンプルデータに対して比較することである。他方、個人同定はバイオメトリックデータを、データベース内のすべてのデータに対してマッチング比較することである。ガウス混合モデルと事後最大確率モデルに基づく統計的枠組みを提案し、これに音声と顔による個人認証を応用した結果、1回しか訓練しなかったにもかかわらずうまく行った。また、個人認証にもっと適した精神的課題が存在することを示そう

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.5


多次元周波数変調による画像構造の解析
Analyzing Image Structure by Multidimensional Frequency Modulation

Marios S. Pattichis, IEEE, Alan C. Bovik, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 753-766 , May 2007

Keywords: Theory and models, image processing and computer vision, image models.

デジタル画像の多次元周波数変調の定量化と理解のための数学的フレームワークを開発する。広く受け入れられている瞬間周波数ベクトル(instantaneous frequency:IF)を位相勾配とする定義からはじめ、IFベクトルの成分導関数のテンソルとして瞬間周波数勾配テンソル(instantaneous frequency gradient tensor:IFGT)を定義する。周波数変調の上界および下界を導出し、IFGTの固有分解として解釈する。IFGTを用いることで画像の流線を記述する常微分方程式(ordinary differential equations:ODEs)を導出する。IFGT固有ベクトル座標系における、これらの多次元周波数変調常微分方程式の対角化について研究する。そして、これらの座標軸に沿って分離可能な変換が計算できることを示す。テクスチャおよび指紋画像解析のための、画像パターン解析の新手法を例証する。我々はこの研究により、局所規則性が定常的に示されない画像パターンの解析を含むアプリケーションの価値を見出すことを期待している。このようなテクスチャの例は自然界に多い。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ガウシアン平均値シフトはEMアルゴリズムである
Gaussian Mean-Shift Is an EM Algorithm

Miguel A. Carreira-Perpinan, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 767-776 , May 2007

Keywords: Mean-shift algorithm, Gaussian mixtures, kernel density estimators, EM algorithm, clustering.

FukunagaおよびHostetlerにより提案されたアイディアに基づく平均値シフトアルゴリズムは、有限混合もしくはカーネル密度推定による密度山登りアルゴリズムである。ノンパラメトリッククラスタリング法として平均値シフトを用いることができる。これは画像分割や追跡などの最近のコンピュータビジョンアプリケーションで注目を集めている。カーネルがガウシアンである場合、平均値シフトは期待値最大化(expectation-maximization:EM)アルゴリズムであり、且つ、カーネルがガウシアンでない場合には、平均値シフトは一般化EMアルゴリズムとなることを示す。これは平均値シフトがほとんどいかなる初期値から出発しても収束すること、そして一般的にはその収束は線形オーダーであることを示唆する。ガウシアン平均値シフトに関して以下を示す。1)きわめて狭小なカーネルもしくはきわめて広範なカーネルに対しては線形収束の比率が0に近づくこと(超線形収束)、そしてその中間のカーネルに対しては、多くの場合この比率が1に近いこと(それゆえ収束が極めて低速)、更にモードが併合する幅のカーネルに対しては、この比率がちょうど1になる(ほぼ線形の収束)こと。2)この反復が、データ点の凸面集合の内部から、データ点の局所主成分に沿ったモードに近づくこと、そして3)収束領域が非凸面であり、非接続になりうること、フラクタルな振る舞いを見せること。EMアルゴリズム的解釈に基づいた平均値シフトを加速するいくつかの方法を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的なほぼ規則的なテクスチャ追跡のための、格子に基づいたMRFモデル
A Lattice-Based MRF Model for Dynamic Near-Regular Texture Tracking

Wen-Chieh Lin, IEEE, Yanxi Liu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 777-792 , May 2007

Keywords: Near-regular texture, visual tracking, dynamic near-regular texture tracking, model-based tracking, texture replacement, video editing.

ほぼ規則的なテクスチャ(near-regular texture:NRT)は、元になるテクスチャからの幾何的且つ測光的な変形をさす。ここで元になるテクスチャとは、単一のタイルの二次元変換により得られる合同な壁紙パターンのことである。動的なNRTとは時系列で変化するNRTのことである。NRTが人造物や自然環境において広く見られるにもかかわらず、NRTのための効果的計算アルゴリズムは少ない。本稿では動的NRTのモデル化と追跡における計算論的課題について論じる。これには不明瞭な対応、隠蔽、そして劇的な照明および外見の変化を含む。我々は、三次元時空間―空間における動的NRFのための、格子に基づいたマルコフ確率場(Markov-Random-Field:MRF)モデルを提案する。我々のモデルは大域的格子構造と画像観察モデルからなる。前者は複数のテキストン(texton:テクスチャ構成要素:訳者注)間の位相幾何的拘束条件を特徴づけ、後者は局所的な幾何情報と外見の変動を取り扱うためのものである。提案したMRFモデルに基づいて、信頼度伝播を利用する追跡アルゴリズムと、動きタイプと照明条件に対するいかなる前提条件も必要としない動的NRT追跡の特殊な課題を効率的に取り扱うパーティクルフィルタを開発する。提案方法と既存の追跡アルゴリズムを比較する定量的評価とビデオ編集における提案方法の応用を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明不変追跡アプリケーションによる、ビデオシーケンスにおける動き、照明、および構造の統合
Integrating Motion, Illumination, and Structure in Video Sequences with Applications in Illumination-Invariant Tracking

Yilei Xu, IEEE, Amit K. Roy-Chowdhury, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 793-806 , May 2007

Keywords: Motion, illumination, reflectance, bilinear, 3D structure.

本稿では動き、遠近法カメラにより撮影された画像系列において、照明、三次元構造、アルベド、そしてカメラのパラメタの効果を統合する理論を示す。任意の位置において、任意の距離の光源に照らされた、動体の全てのランベール反射関数の集合が、9の照明変数と6つの動き変からなる双一次部分空間に“近い”ことを示す。この結果は 任意のビデオ画像系列が与えられた場合に、双一次部分空間公式化を用いることで、三次元構造、動き、そして照明条件を同時に復元することが可能であることを暗に示している。反射の線形部分空間表現に関する既存の研究に基づいて、それを動体のケースに一般化することで、導関数を得る。照明はゆっくり、もしくは急峻、そして局所的もしくは大域的に変化しうる。また光源は、複数の点光源や広がりのある光源などの組み合わせとなりうる。我々は実験的に我々の理論を正答データと比較し、また様々な動きおよび照明方向の組み合わせ条件下で撮影された、三次元の顔および全身像を撮影したビデオ画像系列を利用した実データにおける実験結果も示す。ビデオ画像系列からの、三次元の動きおよび照明モデルパラメタの推定において、我々の理論の結果を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像登録の非対称性と、顔追跡への応用
The Asymmetry of Image Registration and Its Application to Face Tracking

Goksel Dedeoglu, Takeo Kanade, Simon Baker

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 807-823 , May 2007

Keywords: Image registration, resolution, estimation bias, Active Appearance Models.

ほとんどの画像登録問題は非対称の形式で定式化されている。一組の画像が与えられたとき、そのひとつは明示的にしろ暗示的にしろテンプレートとして認識され、他方になるべく沿うように変更を受ける。本稿では、この任意選択に見える役割選択に注目し、相対スケールがある状態で、この役割選択が変形推定に如何にバイアスを与えてしまうかを明らかにする。原理に裏付けられたテンプレート選択方法を示し、なぜ、ぼかし段を潜在的に含む正しい非対称形式のみが、バイアスのない推定器を作り出せるのかについて説明する。モデルベースの顔追跡分野における我々の解析を検証する。通常の動的外見モデル(Active Appearance Model:AAM)定式化がいかにこの非対称性を見逃してきたかを示す。これは観測されるオブジェクトがモデルよりも小さい場合に、フィッティングの精度を急激に劣化させる。我々は新しい“解像度を考慮したフィッティング”(resolution-aware fitting:RAF)アルゴリズムを定式化する。これは上記非対称性を考慮し、カメラのセンサーに起因する明示的な画像ぼけモデルをフィッティング公式に取り入れる。このRAFアルゴリズムと最新の追跡器を、様々な解像度と様々なAAM複雑度レベルにおいて比較する。実験結果は、低解像度データへのフィッティングの場合、RAFが、形状と外見の両方のパラメタの推定精度を有意に向上させることを示す。画像登録の非対称性を認識し、考慮に入れることは、低解像度画像の解析における明確な精度向上をもたらす。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


持続的追跡のための、異種特徴を利用した頑健なオブジェクトマッチング
Robust Object Matching for Persistent Tracking with Heterogeneous Features

Yanlin Guo, IEEE, Steve Hsu, IEEE, Harpreet S. Sawhney, IEEE, Rakesh Kumar, IEEE, Ying Shan, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 824-839 , May 2007

Keywords: Video object tracking and reacquisition, object matching, feature matching, image alignment and matching.

本稿では、様々な照明条件および様々なカメラ位置条件下で撮影された、複数の観測による車両マッチング問題を取り扱う。時間的および空間的なギャップの大きい複数の観測を利用するがゆえに、フレーム毎のデータ関連付けを利用することを禁止し、“車両の指紋”としてひとつの時間系列から抽出された特徴を利用する。この“車両の指紋”を利用することで、2つ以上の観測系列が、同一もしくは異なる車両からのものである尤度を計算する。更に、我々の課題は空中撮影のビデオ追跡であるから、低品質の画像と、解像度と品質に関する大きなばらつきを取り扱うために、我々のアプローチは、車両マッチングの様々な処理段のために頑健な整列とマッチング尺度を利用する。最も特筆に価するのは、我々の手法は、線、点、領域などの異種特徴組を、統合されたマッチングフレームワークにおいて利用していることである。異種特徴の重要性が示される。線と点の特徴は高精度の位置同定を可能にし、異なるビューの間の頑健な整列のために利用される。2つ以上の系列の柔軟なマッチングを利用した、新しい特徴に基づいた擬似的に厳密な整列により、2つの別の観測の間の、カメラ位置、アスペクト比、そして外見の変化に関する課題を取り扱う。しかし、線と点は比較的疎に分布しているため、オブジェクトの輪郭を描くのと、オブジェクト全体をカバーする納得のいくマッチングセットを与えるのには充分ではない。領域特徴は高いカバレッジを与える。また領域特徴を利用することで、マッチング尺度のサブ系列(ひとつの系列から生成されるサブセット系列:訳者注)生成のための車両領域の輪郭が得られる。我々のアプローチは、領域を頑健な塊の特徴として表現すること、そしてEarth Mover's Distance(EMD)を用いた複数領域と複数領域とのマッチングにより、オブジェクトの輪郭を高い信頼性で描く。様々な実世界シナリオにおける大規模実験と、10万以上の確認認証(Confirmatory Identification:CID)トレイルにより、通常カメラおよび赤外線カメラの両方において車両再獲得で約95パーセントの精度が得られることが示されている。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効率的なEarth Mover's Distanceアルゴリズム
An Efficient Earth Mover's Distance Algorithm for Robust Histogram Comparison

Haibin Ling, IEEE, Kazunori Okada, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 840-853 , May 2007

Keywords: Earth Mover's Distance, transportation problem, histogram-based descriptor, SIFT, shape context, spin image, shape matching, interest point matching.

我々はEMD-L_{1}と呼ばれる、ヒストグラム間のEarth Mover's距離(EMD)計算のための高速且つ正確なアルゴリズムを提案する。この新しいアルゴリズムの効率性は、以前はその高い時間複雑性ゆえに適用不可能だった問題に対する応用を可能としている。提案するEMD-L_{1}アルゴリズムは、その原型である線形計画法によるEMDの定式化を顕著に簡単化する。L_{1}距離構造を利用することで、EMD-L_{1}における未知の変数の数は、N個の階級箱を持つヒストグラムのためのオリジナルEMDのO(N^{2})からO(N)に削減される。更に拘束条件の数は半分までに減らされ、線形計画法の目的関数が単純化される。形式的に、あらゆる近似なしに、EMD-L_{1}公式化が、L_{1}距離に基づくオリジナルのEMDと等価であることを証明する。EMD-L_{1}の計算を行うために、効率的なツリーに基づいたアルゴリズムであるTree-EMDを提案する。EMD-L_{1}をネットワークフロー最適化問題として解釈する場合、Tree-EMDは、単純アルゴリズムに基づいた解決システムの基本的な実現可能な解が、スパニングツリー(spanning tree:ネットワーク制御において無限ループを防止するために、通常使う経路を定めておくこと:訳者注)を形成することを利用する。我々は実証的にこの新しいアルゴリズムがO(N^{2})の平均時間複雑度を持つことを示す。これはこれまでに報告されている、オリジナルEMDの三次以上の時間複雑性のうちの最良のものをはるかに凌駕するものである。提案方法の精度を、計算量の多い2つの問題における実験によって評価する。この問題とはすなわち形状認識と多次元ヒストグラムに基づいた局所特徴を用いた注目点マッチングである。形状認識問題では、連結形状データセットおよび、広く試験されたMPEG7形状データセットに対してEMD-L_{1}を形状コンテキストの比較のために用いる。注目点マッチング問題では、合成画像および実画像対に対してSIFT、つまり形状コンテキストとスピン画像を試験する。これらの画像は大きな幾何的変形、照明の変化、および強度のノイズが付与されている。実験結果は、これら2つの問題に対して、我々のEMD-L_{1}に基づいた解法が以前に報告されている最新の特徴と距離尺度を凌駕することを示している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数クラスと複数のビューからのオブジェクト検出のための視覚特徴共有
Sharing Visual Features for Multiclass and Multiview Object Detection

Antonio Torralba, Kevin P. Murphy, William T. Freeman, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 854-869 , May 2007

Keywords: Object detection, interclass transfer, sharing features, boosting, multiclass.

本稿では、散乱したシーンにおけるオブジェクトの多数のクラスの検出問題を取り扱う。伝統的なアプローチでは、複数の位置およびスケールにおいて、画像に対して異種識別器の組を適用する必要があった。それぞれの識別器が、様々な画像特徴の計算を必要とするため、この方法は低速であることが多く、多量の訓練データを必要とすることもある。特に独立に訓練された検出器に対しては、(検出実行時の)計算複雑性と(訓練時)のサンプル複雑性は、検出対象のクラスの数に線形となる。ブーストされた決定スタンプ(boosted decision stump)に基づいたマルチタスクの学習手順を示す。このブーストされた決定スタンプはクラス(および、もしくはビュー)間で共有できる共通特徴を見つけることで計算複雑性およびサンプル複雑性を減らす。各クラスに対する検出器は、独立というよりはむしろ共同で訓練される。与えられた性能レベルでは、必要とされる合計特徴数、そしてこれから導出される、これら識別器の検出実行時のコストが、近似的にクラス数の対数スケールとなることが観測される。共同訓練により選ばれた特徴は一般的なエッジに類する特徴であり、各クラス別個に選ばれた特徴は、オブジェクトに特化した物となる傾向がある。この一般的な特徴は、より良い一般化能力を持ち、複数クラスのオブジェクト検出のコストをかなり削減する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


密度シート分解による、光学的に整合の取れた半透明シーンの再構成
Photo-Consistent Reconstruction of Semitransparent Scenes by Density-Sheet Decomposition

Samuel W. Hasinoff, IEEE, Kiriakos N. Kutulakos, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 870-885 , May 2007

Keywords: Semitransparent scenes, fire, volumetric reconstruction, 3D reconstruction, computerized tomography, view synthesis, image-based modeling, image-based rendering.

本稿では視覚的に現実的な動的半透明シーンの三次元モデルの再構成問題を取り扱う。これには例えば非常に少数(2つでさえありうる)の同時ビューからの火の画像などが含まれる。この問題が、かなり拘束条件が足りない計算論的X線撮影法問題に等価であることを示す。この問題に対しては伝統的な方法は破綻する。我々のアプローチは半透明シーン写真の全ての対が、固有の密度場を持つという観測結果に基づいている。この密度場は密度シート(Density Sheet)と呼ばれ、1)単一の結合された半透明表面に全ての密度情報を集約し、2)2つの写真を厳密に再生する。更に3)これらを実現する空間占有量が最も少ない場である。この観測結果から、この再構成問題をシート様密度場の凸組み合わせに単純化する。各シート様密度場は、2つの入力ビューの密度シートから導出される。この方法を特に火の三次元モデルの再構成問題に適用した。実験結果はこの方法が、過剰適合問題なしに、高品質なビュー合成を可能とすることを示している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ラプラス演算子に基づいたエッジ検出器
Laplacian Operator-Based Edge Detectors

Xin Wang, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 886-890 , May 2007

Keywords: Laplacian operator, LoG operator, multistage median filter, edge detection.

ラプラス演算子はエッジ検出に良く用いられる二次導関数演算子である。ソーベル演算子などの一次導関数に基づいたエッジ検出器に比べ、ラプラス演算子はエッジの位置決めにおいて、より良い結果をもたらすことが期待される。残念ながら、ラプラス演算子はノイズに対する感度が高い。本稿ではラプラス演算子に基づいて、いくつかのエッジ検出器を作るためのモデルを導入する。更にエッジの最大事後確率(Maximum a Posteriori:MAP)推定のための最適閾値を導入する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


散乱環境におけるパート法に基づいたオブジェクト検索
Part-Based Object Retrieval in Cluttered Environment

Yanling Chi, Maylor K.H. Leung, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 890-895 , May 2007

Keywords: Shape retrieval, cluttered scene, local structure, indexing.

本稿では、我々の以前の研究の後継となる新しい局所構造アプローチを提案する。このアプローチは散乱および隠蔽環境下で、且つオブジェクトの外形を同定することなく、オブジェクトの検索を行うためのものである。この方法は、まず整合の取れた、且つ構造的に一意な局所近傍情報を入力もしくはモデルから抽出する。次に動的計画法と新しい超立体に基づいたインデクス構造を利用して最適な照合を選ぶための投票処理を行う。提案するコンセプトは数千の画像を含むデータベースにおいて試験され、6つの最近傍法による形状記述との比較において優れた結果を示している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外見に基づいたオブジェクト認識タスクのための、いくつかの共通線形特徴抽出法の等価性
Equivalence of Some Common Linear Feature Extraction Techniques for Appearance-Based Object Recognition Tasks

M. Asuncion Vicente, Patrik O. Hoyer, Aapo Hyvarinen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 896-900 , May 2007

Keywords: Computer vision, object recognition, principal component analysis, independent component analysis.

最近多数の実証的研究により、PCA(主成分分析)とICA(独立成分分析)の性能が、外見に基づいたオブジェクト認識システムにおける特徴抽出法として比較されてきた。その結果はまちまちであり、矛盾しているようにも見える。本稿ではこれら二つの方法の結合を簡単に述べ、フラットな特性を持つようにチューニングされたPCAが、いくつかのケースにおいてICAと同じ結果をもたらすことを示す。更にICAが顕著にPCAを改善できる可能性のある特定の状況について述べる。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


外見部分空間の非ガウシアンモデル化を用いた頑健な姿勢推定と認識
Robust Pose Estimation and Recognition Using Non-Gaussian Modeling of Appearance Subspaces

Torbjorn Vik, IEEE, Fabrice Heitz, Pierre Charbonnier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 901-905 , May 2007

Keywords: Statistical image representation, object recognition, nonparametric statistics, robust regression, visual appearance, probabilistic PCA, mean shift, half-quadratic theory.

我々は、通常のガウシアン視覚部分空間モデルを、非ガウシアンおよびノンパラメトリック分布に一般化する独自の外見モデルを示す。これは強度の隠蔽や散乱背景などの困難な条件下でのモデル化や認識に有用でありうる。平均値シフトアルゴリズムを用いることで、このモデルによる推測を効率的に解く。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


二連サポートベクトルマシン識別
Twin Support Vector Machines for Pattern Classification

Jayadeva, IEEE, R. Khemchandani, IEEE, Suresh Chandra

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 5, pp. 905-910 , May 2007

Keywords: Support vector machines, pattern classification, machine learning, generalized eigenvalues, eigenvalues, eigenvectors.

我々は二連SVM(サポートベクトルマシン)と呼ばれる、二値SVM識別器を提案する。これは2つの関連SVMタイプ問題を解くことで、2つの非並行平面を決定する。この2つの問題は通常のSVMにおけるそれよりも小さい。この二連SVM定式化は、一般化固有値を経た近似SVMの精神に則ったものである。いくつものベンチマーク用のデータセットにおいて、この二連SVMは高速であるだけでなく、良い一般化能力を示している。二連SVMはこれらのデータの二次元投影を自動的に見つけるためにも有用である。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.6


局所二値パターンを利用した動的テクスチャー認識と顔の表情への応用
Dynamic Texture Recognition Using Local Binary Patterns with an Application to Facial Expressions

Guoying Zhao Matti Pietikainen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 915-928 , 6 2007

Keywords: Temporal texture, motion, facial image analysis, facial expression, local binary pattern

教師なし画像セグメンテーションは多くの画像理解アルゴリズムや実用的なビジョンシステムの重要部品である。しかし、セグメンテー ションアルゴリズムの評価は、従来主観的であったため、いくつかのテスト画像のセグメンテーション結果を対象にしたシステム設計者 の主観に任せていた。これは画像セグメンテーション問題の曖昧性に依存する――つまり、対象画像の解として、比較すべき唯一の 正解を与えることが出来ない。本論文では、最近提案した類似度によって、確率的正規化Rand指標を利用する方法を実演し、これに よってマニュアルでラベル付けされた正解のセグメンテーションを利用した定量的な比較が行えることを示そう。この尺度は異なるアル ゴリズムでセグメンテーション結果の定量的比較が行えるだけでなく、原理的に異なる画像の比較も可能である。ここに馴染み深いア ルゴリズムであるミーンシフト法、効率的なグラフに基づくセグメンテーション法、両者の特長を組み合わせたハイブリッド法、期待値最 大法を例としてアルゴリズム評価の概要の手続きを示す。この結果は、Berkeley Segmentation Data Setに含まれる300画像について 公開されている。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベクトルレベル集合を利用した曲線"/"曲面の表現と発展、および、この形状に基づくセグメンテーション問題への応用
Curve"/"Surface Representation and Evolution Using Vector Level Sets with Application to the Shape-Based Segmentation Problem

Hossam E. Abd El Munim, Aly A. Farag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 945-958 , 6 2007

Keywords: Shape representation, level sets, deformable models, shape-based segmentation.

本論文では、ベクトルレベル集合関数(vector level set function=VLSF)を利用した,フロントの陰表現と発展について再考する。こ れは従来のスカラー形式のレベル集合ではなく、ベクトル形式を持っている。任意の点から前面の最近傍点までの距離はベクトル関 数に含まれるベクトル成分を持っている。このような表現は閉じた平面曲線や3D曲面を発展させるのに適している。進化による距離投 影としてVLSFの特徴を保持しながら、詳細なベクトル偏微分方程式(PDE)の導出と一緒に発展の様子を考察することができる。与えら れた陰表現(implicit representation)の応用として、形状に基づくセグメンテーションの枠組みで実証してみよう。この提案したレベル 集合関数の系は、変化するオブジェクトの位置合せ問題の不一致度の尺度を表すのに利用できる。このような定式化によって、位置 合せプロセスをより良く制御できるが、これが形状に基づくセグメンテーション法の重要な部分である。この手法によるパラメトリックな形 状モデルの構築には学習用の形状サンプルに依存する。形状の事前情報とは別に色も考慮する。この形状モデルは、エネルギー最 小化法による画像容積の考えにうまく合致する。この手法は計算量の大きな点対応手法と、重み係数を調整しながら進化する問題点 を回避できる。これは多次元データに対しても計算効率が良い。この枠組みの有効性は2D,3Dの実データと合成データによって確認 された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形計画法と連続的凸化処理によるマッチング
Matching by Linear Programming and Successive Convexification

Hao Jiang, Mark S. Drew, Ze-Nian Li

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 959-975 , 6 2007

Keywords: Matching, correspondence, linear programming, successive relaxation.

ごちゃごちゃした複雑な背景から広い探索範囲を有する対象物のマッチング問題に焦点を当て、新規な凸計画法による解法を示す。 マッチングは、"L_{1}"正則化項で表記される尺度で定式化されるが、ここで新規な線形計画弛緩法と効率的な連続凸化( convexification)処理の実装を提案する。ここに提案する弛緩法のユニークな特長は元のラベル空間の表現に、ずっと小さな基底集 合しか利用しなくて良いことである。このため、うんと小さな探索空間しか必要としない。連続凸化法は、ラベル化処理において、粗か ら細密へと向かう。重要なことは、元のコスト関数は各段階において、新たな着目領域だけを対象に再凸化処理されることであり、探 索結果を高精度化するために焦点領域が更新される。これによって大きなラベル集合を持つマッチングに適したものになった。マッチ ング実験によって、このマッチング法がオブジェクト検出や、動き検出、トラッキングにうまく応用できることが実証された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


微小な離散ポーズ空間におけるモデルの識別を利用した追跡法
Model-Based Tracking by Classification in a Tiny Discrete Pose Space

Limin Shang, Piotr Jasiobedzki, Michael Greenspan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 976-989 , 6 2007

Keywords: Tracking, registration, motion, 3D"/"stereo scene analysis

粗な距離画像系列内部空間での剛体変形する3Dオブジェクトを追跡するための1手法をここに紹介する。この方法は離散空間で作 用し、オブジェクトの速度とフレーム周期の間に存在する画像フレーム間の既知の整合関係を利用する。これらの動きに対する制約 によってフレーム間の変換空間の大きさが適度なサイズに縮小するが、実際、その大きさは極めて小さく、数百の状態数に絞られる。 追跡問題はこのような識別問題の枠組みに焼き直され、実行時の効率に関する局所的精度とロバスト性のトレードオフ問題となる。こ の手法は実装化され、各画像中に数百点しか存在しないような粗な距離データ系列中の自由形式のオブジェクトに対して、多数のテ ストが繰り返された。連続領域の繰返し最近傍点(ICP)追跡法に比較して、この方法はより効率的でロバストに実行された。初期の離 散的識別ステップの後、ICP法を利用するハイブリッド法も実装化された。このハイブリッド法はICP単独よりも、あるいは、離散的識別 法、また、ICPそれぞれよりも、ロバストであった。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マスクに基づく第2世代の連結性と属性のフィルター
Mask-Based Second-Generation Connectivity and Attribute Filters

Georgios K. Ouzounis Michael H.F. Wilkinson,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 990-1004 , 6 2007

Keywords: Mathematical morphology, second-generation connectivity, connectivity class, clustering, partitioning, dual input max-tree, attribute filte

連結フィルターとは、連結性の概念に依存する、エッジ保存性の形態的(morphological)演算子である。通常は標準的な4-あるいは 8-連結を考慮するが、これはあまりにも杓子定規であり、オブジェクトクラスターやオブジェクト分割のような一般化されたグループ化を モデル化できない。連結性の集合論的枠組みにおいては、これらのグループ化、より一般的な第2世代連結性によってモデル化でき る。本論文では、この理論の拡張と、これら連結性に基づく属性フィルターを計算するMax-Tree法に基づく効率的アルゴリズムを紹介 する。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正準相関を利用した画像集合クラスの識別学習と認識
Discriminative Learning and Recognition of Image Set Classes Using Canonical Correlations

Tae-Kyun Kim Josef Kittler, Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1005-1018 , 6 2007

Keywords: Object recognition, face recognition, image sets, canonical correlation, principal angles, canonical correlation analysis, linear discriminant analysis, orthogonal subspace method

オブジェクト認識のための画像集合を比較する場合の問題点について述べる。ここでの画像集合はカメラ位置の変化によるオブジェ クトの見掛け上の変化や照明の変化を表す。正準相関(principal or canonical anglesと言う名前でも知られている)は2つのd-次元部 分空間の間の角度と見なされるが、画像集合のマッチングに適していると考えられるようなった。この正準相関は、2つの古典的従来 法であるパラメトリックな分布に基づく方法と、ノンパラメトリックなサンプルに基づく方法に比べ、精度が良く効率的でロバストである。こ こで、ある適度のデータ量で正準相関を使った新規な識別学習法を初めて実験的に示す。この手法の高効率が判明し、集合の識別 のためのこの新規な学習法を提案する。特に、古典的線形判別分析(LDA)からクラス内正準相関を最大化し、クラス間正準相関を最 小化する線形判別分析を開発する。判別関数によって変換された画像集合は、次に正準相関で比較される。類似の目的のために、 古典的直交部分空間法も調べられるが、提案手法とも比較される。提案手法は、多様なオブジェクト認識問題において評価されるが 、そのために、異なる照明環境下で任意の動きが捉えらている顔画像集合と、異なる視野の500個の一般オブジェクトが利用された。 この手法は、ETH-80データベースを使った認識にも適用された。本手法は、精度と効率において、最新のアルゴリズムを上回った。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


テキストと画像の識別によるポルノウェブページの認識
Recognition of Pornographic Web Pages by Classifying Texts and Images

Weiming Hu Ou Wu Zhouyao Chen Zhouyu Fu Steve Maybank,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1019-1034 , 6 2007

Keywords: Web pages, pornographic texts, pornographic images, data fusion, recognition

World Wide Webの急速な発展によって人々はますます情報共有の恩恵を受けるようになった。しかし、卑猥で有害な、あるいは、不 法な内容のウェブページにも簡単に接続可能となった。このような不適当で攻撃的、あるいは、ポルノのウェブページが存在することを 認めることは重要である。本論文では、ポルノページを認識するための枠組みを紹介する。そのために、C4.5決定木を用いて、ウェブ ページの内容表現を連続テキストページに変換し、テキストと画像が分離された。これら3種のカテゴリー対象は、連続テキスト分類器 、離散的テキスト分類器と、識別された画像とテキストを融合するアルゴリズムによって個別に処理される。連続テキスト識別器では、 ポルノテキストの認識には統計的・セマンテック特徴量が利用される。離散的テキストの識別にはテキストからポルノ部分を分離するた めに未学習のベイズルールが利用される。画像識別器ではオブジェクトの輪郭に基づく特徴量が抽出され、ポルノ画像が認識される 。テキストと画像の融合アルゴリズムではベイズ理論を利用して、画像とテキストを結びつけて認識する。実験によると連続的識別器 は、従来のキーワードと統計に基づく識別器を凌駕する。輪郭による画像識別器は、従来の肌領域に基づく画像識別器を凌駕する。 そして、融合アルゴリズムによる結果は、それぞれ個々の識別器で認識した結果をいずれも凌駕する。我々の枠組みはウェブの異な るカテゴリーのページにも適用できる。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


特徴量重み付けアルゴリズムのための反復型RELIEF:アルゴリズム、理論、応用
Iterative RELIEF for Feature Weighting: Algorithms, Theories, and Applications

Yijun Sun

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1035-1051 , 6 2007

Keywords: Feature weighting, feature selection, RELIEF, iterative algorithm, DNA microarray, classification

RELIEFは、特徴量の評価に最も成功したアルゴリズムと言われている。本論文では、計算量を大幅に増やすことなく、いくつかの特徴 量の重み付けを与えるいくつかの新しい特徴量獲得法について評価する。まず、発見的なRELIEFアルゴリズムから出発し、見かけ上 発見的数学的解釈であるRELIEFアルゴリズムをオンラインで、マージンを使った目的関数による凸最適化問題を解きながら進行する 。この解釈によってRELIEFを実際の用途に使ってうまく行ったことの説明になるし、また以下のような欠点を指摘することもできる。 RELIEFは、元の特徴量空間に見つかる最近傍重み付け空間に見つかる特徴であるという暗黙の仮定があり、RELIEFは外れ値( outlier)データを処理するメカニズムを持ってない。我々は繰返し(Iterative)RELIEF(= I-RELIEF)アルゴリズムを提案することで、 RELIEFの欠点を軽減するが、これは期待値最大化アルゴリズムの枠組みを利用するものである。このI-RELIEFに新しい多クラスのマ ージン設定を行うことで、多クラスの設定に拡張できる。計算コストを減少するために、オンライン学習アルゴリズムが開発された。提案 アルゴリズムの収束性解析を提案する。UCIやマイクロアレーデータ集合のような大規模のデータベースでの実験結果が示されており 、この提案手法の有効性が実証され、理論的結果の妥当性を示している。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


MonoSLAM:実時間単体カメラSLAM
MonoSLAM: Real-Time Single Camera SLAM

Andrew J. Davison Ian D. Reid, Nicholas D. Molton Olivier Stasse

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1052-1067 , 6 2007

Keywords: Autonomous vehicles, 3D"/"stereo scene analysis, tracking.

見知らぬ情景の中を高速に動く、単眼カメラの3D軌跡を実時間で復元できるアルゴリズムを紹介する。我々のシステムは、 MonoSLAMと呼ばれるが、ロボットから純粋なビジョンまでをカバーする最初の非制御単一カメラであり、実時間処理を実現し、構造か ら運動を抽出する方法では得られないドリフトの無い手法である。この手法の核となる部分は、確率論的に自然の目印を、粗であるが 持続的に生成することである。我々の寄与の重要な点は、マッピングと測定を能動的に行ったこと、スムーズなカメラの動きを達成する ため、さらに特徴量初期化と特徴量方位推定のために一般的な動きモデル利用したことである。さらに、これらを付け加えたことで、標 準的なPCとカメラシステム上で30Hzで稼動する、極めて効率的でロバストなアルゴリズムとなった。この研究によってSLAMが有効なロ ボティックシステムの応用可能な範囲を拡大しただけでなく、新分野も開拓した。ここに、フルサイズの人間型ロボットのための MonoSLAMから実時間3Dの位置確定やマッピング、手持ちカメラによる強化現実画像(augmented reality)への応用を示す。

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オクルージョンの処理を含む、対称的パッチに基づくグラフカットモデルによるステレオ画像対応付け
Stereo Correspondence with Occlusion Handling in a Symmetric Patch-Based Graph-Cuts Model

Yi Deng Qiong Yang, Xueyin Lin Xiaoou Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1068-1079 , 6 2007

Keywords: Stereo, correspondence, segmentation, graph-cuts, occlusion, energy minimization

本論文では新規なパッチに基づく対応モデルを紹介する。最近は多くのセグメントに基づく対応付けが提案されている。テクスチャー の無い画素や境界に基づいて、「セグメントは不連続性を有する境界によって定義される」という不連続性仮説として課されているが、 その中で大きな相違を持ったギャップが生じる場所はセグメント境界だけである。テクスチャーの無い画像で不連続領域をもつ画像に おいても顕著な改良が報告されている。しかし、オクルージョン領域近傍では結果は思わしくないが、その理由は、一方の画像領域 が対応していても、他方の画像領域では部分的にしか対応してないからである。この解決のために、可視領域の両方に現れるエッジ と、片方で隠蔽されたエッジを使い、この被隠蔽領域が不連続点であることに注目した。そこで、提案モデルでは最初、両方の領域で カラーセグメンテーションを行い、次に一方の領域だけでより細かいパッチに分割し、もし不一致と判定されれば他方の画像の境界と する。パッチが片方だけ異なる見え方をすることは許されている。セグメントレベルのユニークさが、隠蔽の検出に利用されている。グラ フカット法を使ったエネルギー最小化法はグローバル最適な構成を見つけるために利用されたが、これは不一致と隠蔽の両方を見つ けるために利用された。さらに、セグメントレベルアルゴリズムを不連続性仮説からのはずれの大きさがセグメンテーションアルゴリズム の結果の悪化とならないような尺度を採用した。実験から、我々の提案手法は、特に隠蔽領域、否拡張領域の隠蔽の拡張に有効であ ったが、境界の近くの領域、さらに、これはオクルージョンされた領域、非テキスト画像を持つ領域、テクスチャーの無い領域、そして、 不連続領域の近傍で特に有効であった。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


興味領域を定義するためのブラインド・デコンボリューションによる焦点領域抽出
Focus Area Extraction by Blind Deconvolution for Defining Regions of Interest

Levente Kovacs, Tamasas Sziranyi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1080-1085 , 6 2007

Keywords: Transform methods, feature representation, indexing methods, sharpening and deblurring, video retrieval

画像や、カメラや情景に関する事前知識なしで1枚の画像だけから自動的に焦点領域を推定する方法を提案する。これは、局所的な ブラインド・デコンボリューションと、新規な残差誤りに基づく識別によって相対的な焦点マップを生成する。この評価と比較を行い、画 像インデックス化を使った応用可能性を示した。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ決定則に誘発された類似尺度
TThe Bayes Decision Rule Induced Similarity Measures

Chengjun Liu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1086-1090 , 6 2007

Keywords: Face Recognition Grand Challenge (FRGC), PRM Whitened Cosine (PWC) similarity measure, whitened cosine similarity measure, Within-Class Whitened Cosine (WWC) similarity measure

本論文では、良く利用されている白色化した(ランダム化した)コサイン類似尺度は特定の仮定下でベイズ決定則と関連していること を示し、次に2つの類似尺度;PRM(確率推論モデル)ホワイトコサイン(PWC)類似度と、クラス内ホワイトコサイン(WWC)類似度を紹介 する。顔データベースである、Face Recognition Grand Challenge (FRGC) version 2を使った実験では、この新規な尺度の有効性が 示された。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


正規化Levenstein距離基準
A Normalized Levenshtein Distance Metric

Li Yujian Liu Bo

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1091-1095 , 6 2007

Keywords: Sequence comparison, Levenshtein distance, normalized edit distance, metric, AESA

今までに多くの正規化編集距離が提案されているが、ある用途には有用であっても2つの記号列の間の編集距離として万能なものは 1つもない。どれも三角不等式を満足しないからだ。有限の記号列XとYが与えられたとき、XとYの間に単純な新規の正規化編集距 離が定義される;lengths" (|X| and |Y|)"、および、これらの間のGeneralized Levenshtein Distance (GLD)である。この新しい距離は GLDによって容易に計算可能で、その計算複雑度はO"(|X|・|Y|)"であり、値としては"[0,1]"、つまり、0と1の間をとる。ただし、重み関数 は、同じコストを有する、挿入、削除全部のコスト基本的編集演算集合に関する距離である。AESAアルゴリズムを使った手書き数字の 認識実験では、この新規の距離は、他の正規化編集距離と類似の結果を示すが、特定のデータ集合で、三角不等式則が破られた 場合では多少良い結果を示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パッチによる画像系列の復元のための時空の適応化
Space-Time Adaptation for Patch-Based Image Sequence Restoration

Jerome Boulanger Charles Kervrann Patrick Bouthemy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 6, pp. 1096-1102 , 6 2007

Keywords: Image sequence restoration, denoising, nonparametric estimation, nonlinear filtering, bias-variance trade-off.

時空時限のパッチを当てる画像系列の新規な復元法を提案する。我々の提案は、偏差-変分トレードオフを局所的解析に基づいて 行う適応的な統計的推定法である。各画素において、時空近傍は、提案されたパッチによる推定法の効率を上げるために適応化され ている。提案手法は教師無し学習法であり、動き推定は必要ない。それにもかかわらず、動き推定法と連結し、カメラの大きな動きに 起因する変位にも対応することができる。実験では、この手法で、大きく壊れた画像系列を顕著に改善することができた。人為的なノイ ズで劣化された標準画像系列の修復では、定量的評価によれば、他の最新手法をはるかに凌ぐ結果を示した。また、実ノイズによる 劣化画像系列に対しても、説得性のある結果が得られた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.7


不変最適特徴を利用した動的形状モデル:顔画像解析への応用
Active Shape Models with Invariant Optimal Features: Application to Facial Analysis

Federico M. Sukno, Sebastian Ordas, Constantine Butakoff, Santiago Cruz, Alejandro F. Frangi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1105-1117 , July 2007

Keywords: Face and gesture recognition, feature evaluation and selection, invariants, shape model, statistical image analysis

本研究は統計的顔認識の分野におけるものである。特に、正面顔画像における顕著な特徴の正確な分割の問題を取り扱う。これまでこのタスクに対して利用されてきた、線形動的形状モデル(Active Shape Models:ASM)を一般化する方法を提案する。この手法は非線形画像強度モデルの発展に基づいたものであり、局所画像記述子としての差分不変特徴の縮小セットを組み込んでいる。これらの特徴は、剛体変換に対して不変である。また、各ランドマークおよび解像度レベルに対する逐次特徴選択(Sequential Feature Selection)により、これらの特徴のサブセットを選択する。これまでのASMは、訓練集合全体にわたり、画像強度値の分布が単峰性(unimodality)およびガウス性をもつことを仮定しなければならなかった。我々の新しいアプローチは、これを克服する。AR、XM2VTS、及びEQUINOXデータベースにおける試験で、我々の方法論が、線形ASM及び最適特徴ASM(最初のアルゴリズムの非線形拡張)に比べ分割精度を顕著に向上させることが示されている。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


部分観測可能なマルコフ決定過程を用いた、ビデオからの人間の行動解析
Value-Directed Human Behavior Analysis from Video Using Partially Observable Markov Decision Processes

Jesse Hoey, James J. Little, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1118-1132 , July 2007

Keywords: Face and gesture recognition, video analysis, motion, statistical models, clustering algorithms, machine learning, parameter learning, control theory, dynamic programming

本稿はビデオデータからの人間の行動の決定理論モデルの学習のための方法を示す。我々のシステムは、人の動きと、その人が動いているコンテキスト、そして効用関数(utility function)の間の関係を学習する。この学習により、観察者に対する行動の意味が、その行動と、動作及びその結果の関係に包含されることを明確にする。あるエージェントにこれらの関係を強調させたいならば、これらの関係がどのように効用の最大化を助けるのかにしたがって、行動を区別する必要がある。我々が用いるモデルは、部分観測可能なマルコフ決定過程(partially observable Markov decision process:POMDP)である。動的ベイズネットワークを用いて、ビデオ観察をPOMDPに統合する。この動的ベイズネットワークは、高次の決定に従う空間的及び時間的抽象化をもたらす。期待値最大化アルゴリズムに基づいた事後拘束条件下での最適化手法を用いて、このモデルのパラメタを訓練データにより学習させる。本システムは自動的に行動のクラスを検出し、起こりうる結果の効用を全体で最適化するための動きを選択するのに、どれが重要かを決定する。この種の学習法により、どの行動が結果に対して顕著な影響を持つかに関するエキスパートの知識によるラベル付データを不要にできる。また、特定の状況で認識を行う場合に、どの行動が有効かについてのバイアスを取り除いてくれる。以下の3つの相互作用、すなわち単一のプレーヤの物まねゲーム、ジェスチャーによるロボット制御問題、二人のプレーヤによるカードゲームの結果を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


多重分布アプローチによる、他のオブジェクトからの影の学習と除去
Learning and Removing Cast Shadows through a Multidistribution Approach

Nicolas Martel-Brisson, IEEE, Andre Zaccarin, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1133-1146 , July 2007

Keywords: Shadow detection, GMM, GMSM, background subtraction, multidistribution, segmentation, image models, pixel classification

他のオブジェクトから投影される、時間変化する影は、前景抽出アルゴリズムにとっての大きな懸念である。通常、監視アプリケーションにおける前景画像の処理では、検出された前景から、このような影を同定・除去することが必要とされる。本稿では、新しい画素に基づいた統計的アプローチを示す。このアプローチにより、非一様且つ強度が変化する、時間変化する影をモデル化する。このアプローチはガウス混合モデル(Gaussian mixture model:GMM)の学習能力を用いて統計的モデルを形成し、これにより、表面上に投影された、他のオブジェクトからの時間変化する影を記述する。この統計モデル化は、照明の飽和領域を含む複雑な時間変化する照明に照らされたシーンを取り扱うことができる。このモデル化は更に、影が検出されることのない領域における誤検出を防ぐことができる。本稿で提案するアプローチは、文献にある画素に基づいた影のある表面の記述とともに用いることができる。この方法は未検出率を上げることなく、誤検出率を顕著に低減する。様々なタイプのシーンによる実験結果と影のモデルにより本アプローチの頑健性を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


再サンプリングと形状拘束条件を用いた頑健な画像分割
Robust Image Segmentation Using Resampling and Shape Constraints

Thomas Zoller, Joachim M. Buhmann

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1147-1164 , July 2007

Keywords: Segmentation, mixture models, shape analysis, learning, resampling, generalization

画像の自動分割は、その構成要素たる画素からセマンティックな意味を抽出するための重要な中間処理タスクとしてとらえられてきた。本稿で我々は、疎な形状情報及び頑健なパラメタ推定と組み合わされた生成的クラスタリングモデルに基づいた画像分割のための統合的アプローチを提案する。画像再サンプリングにより、画像の変化に対する分割解の感度を測量する。形状情報は推論処理に統合され、色及びテクスチャ特徴の不明瞭なグループ化を助ける。形状と類似性に基づいたグループ化情報は、ベイズ統計フレームワークにおけるセマンティック尤度マップに併合される。実験結果は、画像データ単体でも不明瞭な分割となってしまう場合においてすら、セマンティックに意味のある分割が推論されることを示している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


合計最大問題に対する線形計画法的アプローチ:レビュー
A Linear Programming Approach to Max-Sum Problem: A Review

Tomas Werner, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1165-1179 , July 2007

Keywords: Markov random fields, undirected graphical models, constraint satisfaction, belief propagation, linear programming relaxation, max-sum, max-plus, max-product, supermodular optimization

離散変数の二値(すなわち対)関数の合計を最大化するタスクとして定義される、合計最大ラベル付け問題は、一般的なNP困難な最適化問題であり、マルコフ確率場のMAP構成の計算など多くの応用がある。この問題に対する、あまり知られていないアプローチについてレビューを行う。この方法はウクライナの研究者Schlesingerらにより1976年に開発されたものである。このレビューにより、左記の方法が最近の研究成果に対してどのように貢献するかを示す。中でも重要な、ツリーの凸結合とツリー再重み付けされた最大積に関する最近の研究にどのように貢献するかを示す。特にSchlesingerらによる合計最大指標の上界と、同値変換による最小化、この指標と拘束条件満足問題との関係、この最小化が元々の問題の線形計画法的弛緩法と双対であること、そして上界の最適性のために3つの種類の整合性が求められることをレビューする。ブール変数のもつ問題とsupermodular問題を再検討する。この上界を低めるための2つのアルゴリズムについて述べる。構造的画像解析のための応用例を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


アルゴリズム的微分:コンピュータビジョンにおける変分法問題への応用
Algorithmic Differentiation: Application to Variational Problems in Computer Vision

Thomas Pock, Michael Pock, Horst Bischof, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1180-1193 , July 2007

Keywords: Evaluating derivatives, algorithmic differentiation, variational methods, energy functional, optimization

コンピュータビジョンにおける多くの問題は、適当なエネルギー汎関数の最小化として定式化できる。通常、これらのエネルギー汎関数は変分の計算(オイラー・ラグランジュ方程式)に基づいて最小化される。このオイラー・ラグランジュ方程式が決まった場合、デジタル処理を行うコンピュータで処理するために、離散化する必要がある。これは自明な処理ではなく、更に誤差が入り込みやすい処理でもある。本稿では、これに代わる柔軟な代替的手法を提案する。我々は上記汎関数を離散化し、その結果としてアルゴリズム的微分の数学的コンセプトを直接適用し、このエネルギー汎関数の導関数を与えるアルゴリズムを導出する。このアプローチはいくつかの利点をもつ。まず算出された導関数はエネルギー汎関数の実装という意味において厳密である。次に二次導関数を計算する方法として素直なものであり、それゆえに上記エネルギー汎関数のヘス行列(Hessian matrix)の計算も素直なものとなる。第三に、アルゴリズム的微分は自動化可能なプロセスである。我々はこの新しいアプローチを3つの代表的なコンピュータビジョンにおける問題(つまりノイズ除去、分割、そして両眼立体視)において例証する。これにより最先端レベルの結果が非常にわずかな労力で得られることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


重みづけされた極小超曲面再構成
Weighted Minimal Hypersurface Reconstruction

Bastian Goldlucke, IEEE, Ivo Ihrke, IEEE, Christian Linz, Marcus Magnor, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1194-1208 , July 2007

Keywords: Weighted minimal hypersurfaces, tomography, reconstruction, Euler-Lagrange formulation

コンピュータビジョンにおける多くの問題は、エネルギー汎関数の最小化問題として定式化することが可能である。この汎関数が、未知の超曲面のスカラー値重み関数の積分として与えられる場合、求められる最少曲面がこの汎関数のオイラー・ラクランジェ方程式の解として決定される。本稿では、重み関数の一般クラスを扱う。このクラスは曲面の方位に依存し、そして同じようにおそらく曲面の点の座標にも依存する。我々は、いかなる曲面パラメタ化や既存の証明の一般化も必要としない条件下で、任意次元の空間におけるオイラー・ラクランジェ方程式を導出する。我々の研究は、三次元以上の空間における極小超曲面を含む複数の問題を解く可能性を与える。この問題は、以前は実際上解くことが不可能だった。我々の新しいフレームワークの、以下の2つの応用についても紹介する。すなわち、どのように時間的コヒーレントな幾何情報を複数のビデオ系列から復元するか、そして流水などの屈折的および透過的な自然現象の容積測定的再構成である。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


等角幾何と三次元形状マッチング、再構成、そしてつなぎ合わせに対する応用
Conformal Geometry and Its Applications on 3D Shape Matching, Recognition, and Stitching

Sen Wang, Yang Wang, IEEE, Miao Jin, Xianfeng David Gu, Dimitris Samaras, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1209-1220 , July 2007

Keywords: Shape representations, shape matching, conformal geometry, 3D face recognition

三次元形状マッチングはコンピュータビジョンの基本である。ここで言うコンピュータビジョンには、形状登録、三次元オブジェクト認識、そして識別などの多くの応用がある。しかしノイズ、隠蔽、そして散乱がある条件下での形状マッチングは難しい問題である。本稿では、調和写像、等角写像、そして最小二乗等角写像を含む疑似等角写像の種類を三次元形状マッチングに関して解析する。この解析の結果として、最小二乗等角写像を利用した、新しい計算量的に効率的な形状マッチングフレームワークを提案する。等角幾何理論によると、円盤と同相な各三次元表面は、大域的最適化により二次元ドメインに写像することができる。また、この結果得られる写像は微分同相写像(diffeomorphism)であり、つまり一対一かつ全射である。この性質により、結果として得られる二次元のパラメトリック写像を比較することで、三次元形状マッチング問題を二次元の画像マッチング問題に単純化することができる。上記二次元写像は安定で、解像度の変化に対する感度が低く、隠蔽とノイズに対して頑健であるなどの特徴がある。このようにして、これら3つのパラメトリック写像を利用することにより、高精度かつ効率的な三次元形状マッチングアルゴリズムが得られる。最後に、最小二乗等角写像を、隠蔽、ノイズ、そして解像度変化のある条件下で、三次元形状マッチングを詳細に評価し解析する。提案方法の性能をさらに例証するために、2つのコンピュータビジョン問題における一連の実験を行った。これはすなわち三次元顔認識と三次元非剛体表面整列とつなぎ合わせである。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


三次元モデルの最適解像度整列のための近似的かつ効率的な方法
An Approximate and Efficient Method for Optimal Rotation Alignment of 3D Models

Michael Kazhdan

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1221-1229 , July 2007

Keywords: Alignment, matching, retrieval, shape descriptors, signal processing

多くの形状解析アプリケーションにおいて、二つのモデルを整列させるための最適回転角度を見つける能力は、解析プロセスにおける本質的な最初のステップである。過去モデル整列のための方法は、PCA整列などの正規化技術を用いるか、回転角度空間におけるしらみつぶし検索を行うことにより最適な整列を見つけるかのいずれかであった。正規化技術は効率、すなわち2つの形状を登録するための高速な方法を与える面で優位性がある反面、精度は高くなく、まれに誤った結果を与えることもあり得た。これに対し、しらみつぶし検索は最適解を与えることが保障されているが、効率的な信号処理技術を用いてさえも、この種のアプローチは極端に遅かった。本稿では、二つの三次元形状を整列するための新しい方法を示す。この方法が効率的な信号処理に基づいた既存の方法よりも顕著に速いことを示す。我々の方法を用いて得られた整列が高精度であること、そして正規化を用いた方法よりも顕著に高い精度を持つことを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


衣類の表現とシェーディングからの形状復元のための2レベル生成的モデル
A Two-Level Generative Model for Cloth Representation and Shape from Shading

Feng Han, Song-Chun Zhu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1230-1243 , July 2007

Keywords: Shape from shading, generate model, shading primitive, sketch graph

本稿では、画像および、布のうねりと衣服の表面の奥行きマップを表現するための、2レベルの生成的モデルを示す。上位レベルは、(2次元画像のための)シェーディングプリミティブ(shading primitive)と(3次元奥行きマップのための)折り目プリミティブ(fold primitive)の辞書情報と高いコントラスト(陵)領域を生成するであろう多数の折り目からなる。これらのプリミティブはパラメタ形式で表現され、照度差ステレオ法を用いて得られた衣類の3次元表面を用いた教師付き学習フェーズにおいて学習される。下位レベルは、折り目間を埋める残りの平坦領域とその平滑度事前確率(smoothness prior)(マルコフ確率場)からなる。削減された次元性と中間レベルの視覚知識、即ち前述のプリミティブ辞書の利用により、この2レベル法が、古典的な不良設定問題(陰影からの形状復元:shape from shading(SFS))を顕著に改善することが出来ることを示す。入力画像が与えられた場合、我々の方法はまず折り目を推測し、スケッチ追跡アルゴリズムを用いてスケッチグラフを計算する。このスケッチは文献[10]および[11]に示されるプリミティブスケッチを用いている。三次元折り目を、折り目辞書を用いたパラメタフィッティングにより推定する。この三次元折り目は布のうねり/衣類の表面の“スケルトン”を構成する。次に通常の折り目領域を境界条件としてSFS法により下位レベルを計算する。これらの2つのレベルは最終段において上記奥行きマップにおける結合ベイズ事後確率を最適化することにより相互に作用する。我々の行った多数の実験は、他の最新の研究結果と比較しても更に頑健な結果を示している。より広範に見た場合、我々の表現は、一般的なXからの形状復元問題に適用可能な、2レベルの不均質MRFモデルとみなすことが出来る。我々の研究はMarr[23]の原始スケッチからの2.5次元スケッチの計算というアイディアを再評価するものである。同じく提出した我々の論文[2]において、我々は類似の2レベル生成的スケッチ表現に基づいた立体視からの形状復元を研究している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ビデオ画像系列からの複数の周期運動の抽出と解析
Extraction and Analysis of Multiple Periodic Motions in Video Sequences

Alexia Briassouli, Narendra Ahuja, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1244-1261 , July 2007

Keywords: Periodic motion analysis, time-frequency distributions, short term Fourier transform

周期的若しくは反復的運動の解析は、人間若しくは動物の動きの認識と識別などの多くの応用分野において有用なものである。この解析のための既存の方法では、まず空間情報を用いて動きの軌跡を抽出し、次にそれが周期的なものであるかどうかを決める。この種のアプローチは多くの場合特徴マッチング法若しくは空間相関法に基づいたものである。ただこれら2つの方法は往々にして実現可能性が低いか、信頼性が低いか若しくは計算量が大きい。本稿ではビデオ画像系列を全体として扱う、時間−周波数解析に基づいた新しいアプローチを示す。我々の方法は複数の周期軌跡を抽出し、これらの軌跡の周期を同時に推定することが出来る。空間領域情報を用いて周期的に運動するオブジェクトを抽出する。合成ビデオ画像系列及び実ビデオ画像系列を用いた複数の実験により、このアプローチの能力が示される。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔空間の次元性について
On the Dimensionality of Face Space

Marsha Meytlis, Lawrence Sirovich

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1262-1267 , July 2007

Keywords: Face and gesture recognition, computational models of vision, psychology, singular value decomposition

顔空間の次元性は、心理物理研究において客観的に測量される。このフレームワークにおいて、人間の視覚システムのための次元の測量を得る。固有顔基底を用いることで、才覚ある観察者は、慣れ親しんだ顔を大体100次元の空間において同定でき、平均的な観察者は100ないし200次元の空間を必要とすることを示す根拠を与える。これは今日の多くの推定を下回るものである。これらの推定が顔空間次元の上界を与えること、そしてより良く構成された“固有顔”と才覚ある観察者により、この上界が下げられることを更に論議する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数の協調カーネル追跡
Multiple Collaborative Kernel Tracking

Zhimin Fan, Ming Yang, Ying Wu

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1268-1273 , July 2007

Keywords: Kernel-based tracking, multiple kernel, visual tracking

画像測量から復元不可能な動きパラメタは、視覚動的システムにおいて観測不可能である。本稿では、このカーネルに基づいた追跡のコンテキストにおける特異性に関する重要事項を研究し、動き場(motion field)表現に基づいた新しいアプローチを示す。この表現は、コンパクトだが非相関な大域パラメタではなく、頑健だが疎に相関する局所動きパラメタを利用する。このアプローチにより、完全に観測可能なカーネルに基づいた動き推定器の設計が簡単になる。本稿は、これらの高次元動き場が、より単純な局所カーネルに基づいた動き推定器の協調により効率的に推定できることを示す。この動き推定器の組により、本アプローチは非常に実際的なものになっている。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


グラフカットによる劣モジュラー性を持たない関数の最小化:レビュー
Minimizing Nonsubmodular Functions with Graph Cuts-A Review

Vladimir Kolmogorov, Carsten Rother

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1274-1279 , July 2007

Keywords: Energy minimization, Markov Random Fields, quadratic pseudo-Boolean optimization, min cut/max flow, texture restoration

グラフカットに基づいた最適化技術は、多くのコンピュータビジョンの応用分野において標準的なツールとなっている。これらの技術により、ペア毎のマルコフ確率場(Markov Random Fields: MRFs)に対応する特定のエネルギー関数を効率的に最小化することが出来る。コンピュータビジョンのコミュニティーにおいて、受け入れられている考え方は、グラフカットはMRFエネルギーの限定されたクラス(例えば劣モジュラー関数)にのみ適用可能であるということである。今回のサーベイでは、グラフカットが更に多くのクラスに適用可能であることを示すいくつかの結果をレビューする(特に劣モジュラー性を持たない関数)。これらの結果は最適化コミュニティーで良く知られているが、我々の知る限りでは、コンピュータビジョンとMRF最適化というコンテキストでは利用されたことが無かった。これらの結果と二値テクスチャ復元の問題の今後の展開との関連性を例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


パターン場のスタイル拘束ベイズ識別の解析的結果
Analytical Results on Style-Constrained Bayesian Classification of Pattern Fields

Sriharsha Veeramachaneni, George Nagy, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1280-1285 , July 2007

Keywords: Style context, field classification, adaptive classification, Bayesian classification

本誌で最近報告されたフィールド識別器の精度向上の理由となる、スタイルコンテキストの概念を形式化する。スタイルコンテキストが、全ての次数に依存しないフィールド識別スキームの基底をなすことを議論する。我々はクラス内スタイルとクラス間スタイルを区別する。前者は適応的識別器の基礎となるものであり、後者はフィールドのパターンの特徴間の、特徴間依存性の現れである。スタイルが拘束条件づけされた識別器がフィールドエラー(zipコードなどの短いフィールドのために有用)およびシングレットエラー(ビジネス文書などの長いフィールドのために有用)のどちらかに対して最適化可能であることを示す。フィールド長による誤り率の制限を導出し、最適なスタイル拘束条件づけされたフィールド識別器の誤り率が、スタイルを考慮したベイズシングレット識別器の誤り率に収束することを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


スナップショット:頑健な三次元表面整列のための新しい局所表面記述子とマッチングアルゴリズム
Snapshots: A Novel Local Surface Descriptor and Matching Algorithm for Robust 3D Surface Alignment

Sotiris Malassiotis, Michael G. Strintzis, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1285-1290 , July 2007

Keywords: Surface matching, object recognition, partially overlapping surfaces

本稿では、新しい局所記述子を提案し、それを三次元オブジェクトの部分ビューの整列問題に適用する。この記述子は、各点における、表面の“スナップショット”を、その表面に垂直な方位の仮想カメラを用いて撮影することに基を置いている。この表現は情報損失を最小にする利点があり、これにより自己隠蔽に対して頑健になり、また非常に効率的に計算できる。次にこの表現の回転の不明瞭さを扱うための効率的な検索技術を示し、実験的に我々のアプローチの利点を例証する。我々のアプローチは特に少量の重複があるビューの整列に効果を発揮する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オブジェクト認識のための、明確なマルチカラーの領域記述子
Distinct Multicolored Region Descriptors for Object Recognition

Sarif Kumar Naik, IEEE, C.A. Murthy

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 7, pp. 1291-1296 , July 2007

Keywords: Object representation, object descriptor, object recognition, object matching, image representation

本稿ではオブジェクト認識問題を検討する。オブジェクト表現のために、複数の分割領域をカバーする明確に分かれた領域の色記述子を検討する。明確に分かれたマルチカラー領域をエッジマップとクラスタリングを用いて検出する。提案方法の性能を3つのデータセットにおいて評価する。これにより、訓練ビュー(データ)が少数の場合に、提案方法が従来の方法よりも高性能であることが示される。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.8


3Dの耳形状を利用したバイオメトリック認識
Biometric Recognition Using 3D Ear Shape

Ping Yan, Kevin W. Bowyer, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1297-1308 , August 2007

Keywords: Biometrics, ear biometrics, 3D shape, skin detection, curvature estimation, active contour, iterative closest point.

バイオメトリック認証(生物的特徴による認証)において、耳は有望な候補である。しかし、従来の研究では耳画像の前処理に手作業が含まれ、髪やイヤリングの処理が自動化されてなかった。ここでは耳の完全自動化されたバイオメトリックを示すが、外観画像からの自動切り出しや、認識のための3Dマッチングもこれに含まれる。我々は、本システムと、今まで最大の耳のバイオメトリックに関する実験的研究とを比較評価し、415項目のデータベースと全部で1386の検証試験において、誤認識と誤拒絶率が等しい条件で、1.2%の誤り率で同定率が97.8%のトップの成績を達成した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪中心によるパラメータ無しのラジアルディストーションの補正
Parameter-Free Radial Distortion Correction with Center of Distortion Estimation

Richard Hartley, Sing Bing Kang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1309-1321 , August 2007

Keywords: Radial distortion, camera calibration, fundamental matrix.

カメラのラジアルディストーション関数と内部較正パラメータの両方を同時に較正する方法を提案する。この手法は平面的(あるいは、その代わりに非平面の)較正格子を利用するが、この画像を何枚か撮影して利用する。こうして、ラジアルディストーションは、Zhangによる提案法の人気のある校正法に単純な加味するだけで事は足りる。この手法は繰返し計算は不要であるため、計算は超高速で局所最小の影響も考えなくて良い。この方法ではラジアルディストーションをパラメータ無しで決定し、特定なラジアルディストーションモデルを利用する必要はない。この手法は狭角レンズから魚眼レンズまで応用可能である。本手法はラジアルディストーションの中心も計算するが、この場所は考察にあるとおり、最適結果を得るためには重要である。実験が示すように、この点は、画像中心やカメラの主点からも大きくずれている。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複数カメラの較正のための変分法
A Variational Approach to Problems in Calibration of Multiple Cameras

Gozde Unal, Anthony Yezzi, Stefano Soatto, Greg Slabaugh,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1322-1338 , August 2007

Keywords: Calibration, variational methods, color calibration, lens distortion calibration, camera parameters refinement.

本論文は変分法を利用したカメラパラメータの較正法である。一つ紹介する問題は、安価なカメラの高ひずみレンズの補正である。多くのコンピュータビジョン研究アルゴリズムは信頼性の高い3D情景の幾何学的構成と3Dの測定を狙っている。このひずみをそのままにしておけば、再構成される3D画像や幾何学的測定値が不正確であることになる。第二の問題は、カラーの較正問題で、カメラが異なると、被写体に対するカラー特性が変化するため、較正が必要となることだ。この補正がなされないと、得られるカラー情報は測定に依存してアルゴリズムが影響を受けることになる。また、外的要因によるカメラの較正問題について述べる必要がある。これによって複数のカメラの姿勢や方位の相対値を推定し、またカメラ固有の問題である焦点距離やひずみパラメータを推定する。これらの較正問題を理解してもらうために多視野ステレオ法を示し、部分差分方程式を利用する変分法を示す。この手法はカメラ較正パラメータの協調的精密化法とも考えられる。このようなアルゴリズムの計算時間を削減するために、較正物質に関する事前知識を利用し、このようなアルゴリズムの適用オブジェクト表面が滑らかであると言う仮定を順次適用し、カメラ画像の2D画像から特徴抽出することなく3Dモデルのポーズや方位、スケールパラメータを進化させ、計算速度を上げることができた。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


最適照明のための多重照明
Multiplexing for Optimal Lighting

Yoav Y. Schechner, IEEE, Shree K. Nayar, IEEE, Peter N. Belhumeur

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1339-1354 , August 2007

Keywords: Physics-based vision, image-based rendering, multiplexed illumination, Hadamard codes, photon noise.

オブジェクト(対象物)を可変証明下で画像化することは、コンピュータビジョン、マシンビジョン、画像表現において重要でしばしば実行されている。このような画像化手法は、従来1つの画像では1つの照明を前提としていた。その結果、単一照明によってできるハイライト部の過剰飽和を避けるため、画像としては暗過ぎ、ノイズの多いものになっていた。我々は画像品質が大きく向上する手法を紹介し、この中で、複数光源による多方向同時照明によって著しく画像品質が向上することを示す。このような多重照明をシミュレーション環境で実現する。この手法はぼんやりしたオブジェクトの画像化に適しているだけでなく、鏡面反射のあるオブジェクトの表現にも向いている。最適条件を用意することによって照明光が多重化し、画質が最高品質となり、ノイズは情報とは独立となる。この手法はHadamardコードで記述されている。この手法によって方向解像度の高い照明光の環境が得られる。以上のことは、我々が構築する柔軟性の高い、安定な、プログラム可能な環境で示される。これを使って多重照明の利点を実証できた。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


2次の局所画像構造を有するソリッド
The Second Order Local-Image-Structure Solid

Lewis D. Griffin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1355-1366 , August 2007

Keywords: Scale space, image derivatives, feature analysis, noise, natural images

ガウス関数の微分を計量とする6Dベクトル(あるいはジェット)による2次の局所画像構造を特徴付けする方法を考察した。我々は変換グループのジェットである――アフィン強度スケール付き、画像の回転と反射、および、その成分――が内在する画像構造を保存するメカニズムを考察した。このグループが如何にジェット空間をorbit(軌道)の系に階層化するかを示そう。各orbit(軌道)を点と考えると、3D-orbifold(軌道重ね)が定義できる。このorbifold上の尺度が導けるジェット空間上のノルムを提案する。この尺度テンソルは、orbifoldが本質的に湾曲していることを示している。orbifoldの可視化のためと、これによる数値計算のために、緩やかに歪んでいるが体積保存性のorbifoldを3次元ユークリッド空間に組み込む。この結果できた形状はつぶされたレモンの形状であるが、これを2次局所画像構造ソリッドと呼ぶ。このようなソリッドの例として、ノイズ画像と自然画像中での局所構造の分布を計算する。ノイズ画像のりようによって解析的結果が可能得られ、実験的結果とも一致している。自然画像として、過剰な1D構造が見られた。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


3連マルコフ場を利用した非定常画像の教師なし統計的セグメンテーション法
Unsupervised Statistical Segmentation of Nonstationary Images Using Triplet Markov Fields

Dalila Benboudjema, Wojciech Pieczynski

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1367-1378 , August 2007

Keywords: Triplet Markov fields, statistical image segmentation, paramater estimation, Pearson system, iterative conditional estimation, nonstationary images, textures classification

最近の統計理論と関連する計算手法の発展によって画像モデル化だけでなく画像セグメンテーション法にも新たな展開が見えてきた。その結果多数のモデルが提案され、その中で多くの注目を集めた方法は隠れマルコフ場(hidden Markov fields (HMF) )モデルである。その理由は扱いが簡単なことと画質の改善の可能性が高いことであろう。これらモデルは定常な場面では満足すべき結果が得られているが非定常的場面では満足な結果は得られてない。本論文では、我々は非定常な隠れ確率場において、教師なし統計的モデル化がどのように達成され、その結果、画像セグメンテーションに対してどのような効果が発揮されるかに取り組む。最近開発された三重項マルコフモデルに基づく、独自の手法を提案するが、これは非定常なクラス場を扱うことができる。さらに、ノイズが補正されるが、多分、正規分布でないノイズが。クラスに依存して変化するノイズマージンの性質を見つけるためのピアソン系を利用した独自のパラメータ推定法もまた、提案され、教師なし画像セグメンテーションに利用された。実験の結果、この新しいモデルと関連アルゴリズムによって、従来の古典的結果を改善した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


無限分布から推定された確率的文脈自由文法
Probabilistic Context-Free Grammars Estimated from Infinite Distributions

Anna Corazza, Giorgio Satta, IEEE Computer Society

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1379-1393 , August 2007

Keywords: Probabilistic context-free grammars, maximum-likelihood estimation, derivational entropy, cross-entropy, expectation-maximization methods, Hidden Markov Models

本論文では確率的文脈自由文法を考察するが、これは統語的パターンマッチングのいくつかの応用分野で成功裏に用いられたことがあり、特に統計的自然言語構文解析で成功している。この確率的文脈自由文法を、交差エントロピーを最小化するというモデルで無限の木集合や無限の文集合を学習させるという課題について研究した。この課題は、表現がもっと確率論的に豊に生成された分布を有する文脈自由近似の場合に用途が存在する。このような方法で推定される確率論的文脈自由文法のいくつかの理論的性質について述べるが、この結論の中には以前は知られてなかった入力分布付き文法交差エントロピーと、いわゆる文法そのものの派生エントロピーが同一であることも含まれている。標準的応用である有限木と文例に関する最大尤度推定器の結果と、他の有限状態モデルである隠れマルコフモデルや確率的有限オートマタに関する重要な結論について議論する。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


情報判別解析:情報理論的目的関数を有する特徴抽出
Information Discriminant Analysis: Feature Extraction with an Information-Theoretic Objective

Zoran Nenadic

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1394-1407 , August 2007

Keywords: Feature extraction, information theory, mutual information, entropy, classification, linear discriminant analysis

情報理論の基本的なツールを利用して、識別を目的とした観察空間から、低次元の(特徴量)部分空間への新規な線形変換法を開発した。本手法は情報理論による目的関数の最適化による数値的手法に基づいており、解析的に計算することが可能である。他のいくつかの手法に比べ、この提案手法の利点について述べている。この条件下において、本方式は線形判別分析に帰結することを示す。我々は、この新規な目的関数が様々な相互情報量やベイズ誤りに関する利点を有していること、この方法がベイズ論的に最適化される十分条件を示す。目的関数は数値的に最大化されているので、計算がどのように高速に実現可能な解に至るかを示す。本手法の性能を他の線形記述法に基づく特徴抽出と比較していかに優れているかを、シミューレーションデータや実データで示す。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ベイズ法と手本に基づく手法による階層的形状マッチング法
A Bayesian, Exemplar-Based Approach to Hierarchical Shape Matching

Dariu M. Gavrila

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1408-1421 , August 2007

Keywords: Hierarchical shape matching, chamfer distance, Bayesian models.

本論文は、手本に基づく階層的形状マッチング法を紹介する。この手法は手本間の特徴量の対応は不要であり、単に好ましい対ごとの類似尺度が必要である。この手法では手本となるテンプレート(見本)の木が必要で、このため多様な見本形状に対して効率的にマッチングできる。この木は確率論的手法で別途ボトムアップ的にクラスタリングされた形状見本を利用する。オンラインマッチングでは木に沿って疎から密へ向かって形状とパラメータの同時マッチングを実行する。本論文の新規な点は、木のノードにある程度マッチングした後、オブジェクトクラスの事後確率の推定にベイズモデルを利用することである。このモデルではオブジェクトのスケール、顕著な特徴を利用していることであり、これによって有望でないマッチング経路をたどって木を探索する可能性を減少させるように、マッチングの閾値設定を可能にしたことである。この提案手法は色々な用途で試された。ここで、最も難しい用途の一つである実時間で、車と混在する中から通行人を検出する課題の結果を示す。この提案する確率的マッチング手法の採用と、マニュアルで調整された非確率論的手法を組み合わせることで、同じ木を利用した場合でも、認識速度の顕著な向上が見られた。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像認識のための形状変形モデル
Deformation Models for Image Recognition

Daniel Keysers, Thomas Deselaers, IEEE, Christian Gollan, Hermann Ney, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1422-1435 , August 2007

Keywords: Image matching, image alignment, character recognition, medical image categorization

画像認識という課題のための、異なる非線形画像変形モデルの応用について述べる。この変形モデルは、特に局所変形を有するモデルに適しており、画像オブジェクトが変わり易い場合に適している。このようなモデルの中でも、実装が容易で、計算量が少なく、現実の画像認識課題中でも十分競合できる性能を持つような1つの方法があることを示す。この方法は4つの異なる手書き数字認識と、医用画像の識別に高性能を発揮することを実験的に示そう。特に、MNISTに対する実験では、誤認識率は0.54%が達成されが、同時に2005年医用画像の識別コンテストのImageCLEF評価においては、12.6%の最小誤り率を達成した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


線形計画法に基づくグラフカットを使った近似的ラベル付け
Approximate Labeling via Graph Cuts Based on Linear Programming

Nikos Komodakis, Georgios Tziritas, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1436-1453 , August 2007

Keywords: Global optimization, graph-theoretic methods, linear programming, Markov Random Fields, pixel classification, graph labeling, graph algorithms, early vision, stereo, motion, image restoration

コンピュータビジョンにおいてしばしば必要となるマルコフ確率場(MRF)の広範囲のモデルにおける近似的最適化に適したグラフカットの組合せ論的アルゴリズムの理解と発展のための新規な枠組みについて紹介する。ここで提案する枠組みでは、線形計画法の双対理論から得られるツールを利用する。これによって、選択的で、より一般的な観点の最新手法、例えばalpha拡張アルゴリズム(単なる一例)、が得られる。alpha拡張アルゴリズムと反対に、求まったアルゴリズムは、任意のポテンシャル関数を持つ離散的MRFのような距離尺度の与えられない、より広い課題に対しても、最適解の存在を保証している。更に、これらはインスタンス毎にすべての場合に準最適化有界性を与える。この有界性は実際のところ非常に緊密(tight)である(つまり、1に近い)ことが分かっており、つまり、結果として得られる解はほとんど最適化されている。我々のアルゴリズムの有効性は、様々な低レベルの画像に関する課題、つまりステレオマッチング、画像復元、画像の完全性、さらに、オプティカルフロー推定と人工的効果について、実験結果によって、我々のアルゴリズムの有効性が実証された。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


TEXEMS:ランダムなテクスチャー表面上の欠陥検出のためのテクスチャー見本
TEXEMS: Texture Exemplars for Defect Detection on Random Textured Surfaces

Xianghua Xie, IEEE, Majid Mirmehdi, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1454-1464 , August 2007

Keywords: Defect detection, texture analysis, texem model, mixture model, EM algorithm

ランダムカラーのテクスチャー中の欠陥場所を検出・位置決めする手法を紹介するが、その中でテクスチャーの学習には、教師無しでノイズの無いパッチが少々あれば事足りる。この時の各画像は色々なサイズの画像パッチの重ねあわせによって生成されると仮定している。これら画像パッチとそれらの対応する偏差はここではテクスチャー見本、つまり texemsと呼ぶことにする。 texemsを作るためには混合モデルを利用し、多段スケール(ピラミッドモデル)によって計算速度を向上させた。カラーテクスチャーの新規性を検出するためには多段スケールのデータの類似性に基づく同一起源類似性を調べることで達成し、続いて欠陥候補と局所欠陥を結びつける論理的プロセスを調べた。新規性検出の観点から、この提案手法とガボールフィルターバンク法との比較がなされた。また、欠陥検出における精度と効率の観点から、異なるtexemを比較した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


手書き文字認識のために正規化の助けを借りたグラディエント特徴抽出法
Normalization-Cooperated Gradient Feature Extraction for Handwritten Character Recognition

Cheng-Lin Liu, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1465-1469 , August 2007

Keywords: Character recognition, feature extraction, normalization-cooperated gradient feature (NCGF).

グラディエント方向ヒストグラムの特徴量は文字認識において優れた性能を示す。形状正規化によって導入されるストローク方向の歪みの影響を軽減させ、認識率を向上させるために、正規化の助けを借りたグラディエント特徴量抽出法と呼ぶ新規な方法を提案するが、これは、正規化画像を作ることなく、また、いろんな正規化法を組み合わせて、原画の勾配方向要素を方位平面にマップ化する。手書き日本語、手書き中国語のデータベースに対する実験では、本手法は擬似2次元正規化法と組み合わせた結果、8.63%から14.97%の誤認識率の減少を達成した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


能動的な幾何学的輪郭のためのパーティクルフィルタリングを利用した変形オブジェクトの追跡
Tracking Deforming Objects Using Particle Filtering for Geometric Active Contours

Yogesh Rathi, IEEE, Namrata Vaswani, Allen Tannenbaum, Anthony Yezzi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1470-1475 , August 2007

Keywords: Tracking, particle filters, geometric active contours

変形オブジェクトを追跡するには、オブジェクトのグローバルな動きと局所的変形に関する時間の関数の形で推定することが必要である。カルマンフィルターやパーティクルフィルターが形状の有限次元表現として提案されてきたが、これらは選択されたパラメータに依存し、曲線トポロジーの変化を扱うことができない。動的な形状輪郭は、パラメータに依存しない枠組みを提供するし、トポロジーの変化に対応できる。今回の研究において動的に形状が変化する輪郭を有する枠組みにおけるパーティクルフィルターのアルゴリズムを定式化し、これによって動くオブジェクトや変形するオブジェクトを追跡することができる。我々の知る限り、無限次元の状態空間における追跡のための近似的パーティクルフィルタリングアルゴリズムを実装化したのは、我々が初めてである。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


カメラの位置決めのにおける画像ノイズに起因する誤差
Image Noise Induced Errors in Camera Positioning

Graziano Chesi, IEEE, Y.S. Hung, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 8, pp. 1476-1480 , August 2007

Keywords: Visual servoing, image noise, positioning accuracy, convex optimization

与えられたオブジェクトとカメラの配置が与えられたとき、未知であるが有界の誤差によって引き起こされた最悪の場合を想定したカメラの位置合せ問題を評価するための問題について考察する。特に、ある種の画像ノイズ強度に対する回転と並進の最悪ケースの誤差の上限が凸最適化によって得られる。これらの上限は、標準的最適化によって得られる下限と異なり、ロバストな視覚サーボ系の設計が可能となる。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.9


標準テンプレートからの指紋画像再構成
Fingerprint Image Reconstruction from Standard Templates

R. Cappelli, D. Maio, A. Lumini, D. Maltoni

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1489-1503 , September 2007

Keywords: NONE

マイニューシャに基づいたテンプレートは指紋画像の非常にコンパクトな表現であるが、長い間、この表現は、オリジナルの指紋画像を復元するのに充分な情報を持っていないとみなされてきた。本研究では標準テンプレートからの指紋画像再構成のための新しいアプローチを提案する。また再構成された画像がどの程度オリジナルの指紋画像(例えばテンプレートの抽出元になった画像)に類似しているかについて調査する。9つの異なる指紋画像再構成アルゴリズムに対するマスカレード攻撃(仮想攻撃)の成功率を推定することで、我々の再構成手法の効果を検証する。我々の実験結果は、再構成画像が非常に現実的なものであること、人間のエキスパートの目を欺くことは非常に困難であるが、最新の商用の指紋画像再構成システムを欺ける可能性は高いことを示している。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


任意の形状の領域を持つ画像の、階層構造をモデル化するための空間確率木文法
Spatial Random Tree Grammars for Modeling Hierarchal Structure in Images with Regions of Arbitrary Shape

J. M. Siskind, J. Sherman, Jr, I. Pollak, M. P. Harper, C. A. Bouman

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1504-1519 , September 2007

Keywords: Bayesian methods for image understanding, multiscale analysis

本稿で我々は画像とその領域の階層構造の新しい確率論的モデルを提案する。このモデルを空間確率木文法(spatial random tree grammars: SRTGs)と呼ぶ。尤度、MAP推定、及びモデルーパラメタ推定のための正確なEMアップデートの正確な計算のためのアルゴリズムを開発する。我々はこれらのアルゴリズムを総称して中心−周辺アルゴリズム(center-surround algorithm)と呼ぶ。この中心−周辺アルゴリズムを利用し、SRTGのMLパラメタを自動的に推定し、尤度及び関連する階層構造のMAP推定に基づいて画像を識別する。我々の方法を自然画像識別に適用し、この階層構造の利用が顕著に(このような階層構造を持たない)ベースラインモデルの性能を向上させることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


柔軟な色識別とその応用
Soft Color Segmentation and Its Applications

Yu-Wing Tai, Jiaya Jia, Chi-Keung Tang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1520-1537 , September 2007

Keywords: Color image segmentation, Image synthesis

本研究で我々は柔軟な色識別のための自動的アプローチを提案する。このアプローチにより、適切な量のオーバーラップと透過性を持つ柔軟な(ソフトな)色セグメントが得られる。多くの種類の、画像に基づいたアプリケーションにおける自然画像合成で、このオーバーラップと透過性は重要な役割を果たす。多くの最新の複雑な手法は、シーンの意味記述を行なうために入力画像を分割することには優れている。これに対して我々は、シームレスな画像合成を実現するために、画像中の不連続を保持しつつも柔軟な境界を持つ領域同士の間の空間的及び色的コヒーレンスも維持するように設計された画像分割アプローチを提唱する。提案手法は、画像中の相対的な色分布に対応するソフトなラベルの組を、各画素に割り当てる。大域色統計量と局所画像合成の柔軟性により与えられる信頼性を利用することで、大域目的関数を最適化する。これにより、ガウス混合モデル(Gaussian Mixture Model:GMM)により大域色統計量が表される画像モデルが得られる。このモデルでは各画素の色は局所色混合モデルで説明される。この色混合モデルでは、収束したGMMの要素に対する上記の柔軟なラベルにより重みが定義される。本モデルでは自然に透過性を取り扱うことができ、これにより各画素における最適な色の混合を推測する。大域及び局所情報を同じフレームワークで適切に扱うために、上記大域及び局所モデルのパラメタを得るための、上記手法の代替となる反復的解法による最適化手法も提案する。我々の手法は完全に自動であり、良い最適解に収束することが示される。大規模な評価と比較を行うことで、我々の方法により、画像マッチング、色変換、画像ボケ補正、そして画像への色付与などのアプリケーションにおいて、良好な画像合成結果が得られることを例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


計数論的補間
Cardinal Interpolation

Steven C. Gustafson, David R. Parker, Richard K. Martin

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1538-1545 , September 2007

Keywords: Bayesian statistics, Interpolation, Modeling and prediction, Probability and statistics, Regression

我々は補間関数のためのベイズ確率密度を開発し、これに対する好ましい性質と実際の潜在的能力を例証する。この密度の計算のためには計数論的補間と呼ばれる性質が必要とされるが、これまでのところ、これを適切に得ることが出来ていない。この計数論的補間とは、最小自乗モデルの密度の外挿の計算可能性を確保するためのものである。特に計数論的補間密度の平均値は、与えられた複数の(x, y)点を分割する平滑関数であり、これらの点の最小自乗線を外挿する。この密度の分散は点xにおいてゼロ値をとり、最近傍のx値からの距離に従って増大する平滑関数である。この分散は上記最小自乗線の良く知られた二次分散関数を外挿する。本稿で提案する新しい計数論的補間密度は、完全なベイズ法を利用したガウス放射基底補間であり、これにより補間器の平滑性を最適化する。大きなx値の場合を例外とするが、この最適化は既定関数の幅を決め、非ガウシアンである補間密度を与える。この例外のために、上記補間密度はガウス工程の結果ではない。更なる開発により、最小自乗線モデルの密度に対する外挿の顕在特徴が、(単なる補間ではなく)より一般的な近似関数に適用可能であることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロス有りデータコーディングと圧縮による多変量混合データの分割
Segmentation of Multivariate Mixed Data via Lossy Data Coding and Compression

Yi Ma, Harm Derksen, Wei Hong, John Wright

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1546-1562 , September 2007

Keywords: Multivariate Mixed Data, Data Segmentation, Data Clustering, Rate Distortion, Lossy Coding, Lossy Compression, Image Segmentation, Microarray Data Clustering

本稿ではロス有りデータコーディングと圧縮のアイディアに基づいた、シンプルだが効果的な、多変量混合データの分割手法を提案する。ここで混合データはガウス分布の混合から得られるものとする。このガウス分布は殆ど縮退していることが許される。本研究の目的は、与えられた歪みに従い、分割されたデータのコード長を最小化する最適分割を見つけることである。混合データのコード長/コードレートを解析することで、データ分割問題と、ロス有りデータ圧縮及び多くのコードレート歪み理論の基本コンセプトとを形式的に強く結びつける。殆どの場合、決定論的分割が混合データの圧縮の(漸近)最適解であることを示す。本稿で我々は、非常にシンプル且つ効果的なアルゴリズムを提案する。本アルゴリズムは、許容範囲の歪みというただひとつのパラメタにのみ依存する。本アルゴリズムは、いかなる歪みにおいても、パラメタ推定なしに、自動的に対応するグループの数と次元を決定する。シミュレーションの結果により、歪みレベルが変化したとき、若しくははずれ値の量が変化したときの、興味深い分割数の相転移に似た振る舞いを明らかにする。最後に、この手法が如何に簡単に実画像及び生体情報データの分割に適用可能かを例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチステンシル高速マッチング法:デカルト領域に対するアイコナール方程式(Eikonal Equation)の高精度解
MultiStencils Fast Marching Methods: A Highly Accurate Solution to the Eikonal Equation on Cartesian Domains

M. Sabry Hassouna, A. A. Farag

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1563-1574 , September 2007

Keywords: Multi-stencils fast marching methods, monotonically advancing fronts, fast marching methods, level set methods, Eikonal equation

多くの種類のコンピュータビジョンのアプリケーションが、アイコナール方程式として知られる特定のハミルトン‐ヤコビ方程式(Hamilton- Jacobi equation)の高精度な解を必要とする。本稿では、高速マッチング法(fast marching method:FMM)の改良版を提案する。この方法は二次元および三次元デカルト領域の両方に対して高精度である。この新しい方法はマルチステンシル高速マッチング法(multi-stencils fast marching:MSFM)と呼ばれ、いくつかのステンシル(型)に沿ったアイコナール方程式を解き、そして風上条件を満たす解を選ぶことで、各グリッド点における解を計算する。このステンシルはグリッド点に中心を持ち、すべての隣接点をカバーする。二次元空間においては、2つのステンシルが8つの隣接点をカバーし、6つのステンシルで合計26の隣接点をカバーする。自然座標系に沿わないステンシルのために、方向導関数を用いてアイコナール方程式を導出する。そしてこの方程式は高次階差スキームを用いて解かれる。提案手法の精度が、FMMに基づく最先端の方法を超えることを、分かりやすい数値実験により例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


あるシーンに含まれる多くの言葉
A Thousand Words in a Scene

Pedro Quelhas, Florent Monay, Jean-Marc Odobez, Daniel Gatica-Perez, Tinne Tuytelaars

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1575-1589 , September 2007

Keywords: Image representation, scene classification, object recognition, quantized local descriptors, latent aspect modeling

本稿では画像に基づいたシーンモデリング及び識別のための新しいアプローチを示す。このアプローチでは、テキストモデリング法と局所不変特徴を同時に用いることを試みる。我々の研究は以下の3点を解明することを目的とする。(1)テキストのようなbag-of-visterms表現(定量化された局所画像特徴のヒストグラム)が(オブジェクト識別よりも)シーン識別に適しているかどうか。(2)離散的なシーン表現とテキストドキュメントの間のアナロジーが存在するか否か、そして(3)教師なし学習による、潜在的な空間モデルを、識別のための特徴抽出器として、そして画像の共起性のパターンの検出の両方に使用することができるか否か。複数のデータセットを用いて我々のアプローチの検証を行い、上記項目それぞれについての実験について検討する。最初に、二値、及び多クラスシーン識別に関して、9500個の画像データセットを用いた大規模実験を示す。この条件においては、bag-of-visterms表現が終始、古典的なシーン識別アプローチを上回る性能を示す。他のデータセットでは、我々のアプローチが、他の最新の、より複雑な方法と互角、若しくはより優れた性能であることを示す。確率論的潜在意味解析(Probabilistic Latent Semantic Analysis:PLSA)によりコンパクトなシーンの表現が生成可能であることも示す。これは高精度識別にとりわけ有用であり、ラベル付けされた訓練データの数が少ない場合には、bag-of-visterm表現よりも頑健である。最後に、アスペクトに基づいた画像ランキング実験を通じて、PLSAの意味ある画像パターンの自動抽出能力を示す。これにより、画像コレクションのブラウジングに、このような表現を有効に使うことができるようになる。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


緩和直線特性を用いたデジタル曲線の高速ポリゴン近似
Fast Polygonal Approximation of Digital Curves Using Relaxed Straightness Properties

Partha Bhowmick, Bhargab B. Bhattacharya

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1590-1602 , September 2007

Keywords: Digital geometry, digital straight line, polygonal approximation, shape analysi

既存のいくつかのDSS(digital straight line segments:デジタル直線線分)認識アルゴリズムは、与えられた1画素幅のデジタル曲線のデジタル直線性の決定に用いることができる。デジタル直線性の固有の幾何的制約ゆえに、これらのアルゴリズムは、与えられたデジタル曲線をカバーするために、多数の線分を生成する。ここでデジタル曲線とは、実世界におけるオブジェクト、すなわち画像を表現するものである。このため、デジタル表現において厳密には直線ではない曲線線分は、擬似的に直線として表わされる。そして上記アルゴリズムが適用された場合には、この曲線線分は複数のDSSに分解される。本稿ではDSSの特定の条件を緩和することで直線性を近似する新しいコンセプトを導入し、これらの線分をデジタル曲線から抽出するためのアルゴリズムを示す。ある曲線をカバーするために必要とされる線分の数は、DSSによりカバーされる数よりも顕著に少ないことが示される。結果として、ある曲線を表現するためのデータセットも大幅に削減される。抽出された線分の組をさらに組み合わせることで、特定の近似指標と特定のエラー耐性に基づき、デジタル曲線のコンパクトなポリゴン近似を決定することができる。提案アルゴリズムは一次積分のみ利用するため、DSSに基づくアルゴリズムに比べ非常に高速である。全体の時間複雑性は、代表セットに含まれる点の数に対して線形である。いくつかのデジタル曲線における実験結果により、提案方法の速度、洗練性、そして効果を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


統計モデルと確率最適化を用いた形状の局所化
Localization of Shapes Using Statistical Models and Stochastic Optimization

Francois Destrempes, Max Mignotte, Jean-Francois Angers

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1603-1615 , September 2007

Keywords: Shape localization, statistical model, stochastic optimization,, Exploration/Selection (E/S) algorithm, Probabilistic Principal Component Analysis (PPCA)

本稿では、形状の変形のための新しいモデルを示す。グレーレベル勾配ベクトル場の統計的分布に基づいて疑似尤度を計算し、確率的主成分分析(Probabilistic Principal Component Analysis:PPCA)に基づいて事前分布を計算する。これに加え、形状の変化の幅が大きい場合に有効なPPCAの混合に基づいた新しいモデルも提案する。このモデルには、特に画像の初期的な色分割に基づいた大域もしくは局所オブジェクトの基準が含まれる。画像中の形状の局所化は、対応するギブズ場(Gibbs field)の最小化とみなされる。探索/選択(Exploration/Selection:E/S)確率的アルゴリズムを用いて最適な変形を見つける。これにより形状の局所化のための新しい教師なし統計的方法が得られる。反復条件推定(Iterative Conditional Estimation:ICE)法を用いてグレーレベル勾配ベクトル場の統計パラメタの推定を行う。探索/選択/推定(Exploration/Selection/Estimation:ESE)法を用いて画像の色分割を計算する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明移動定常性を用いたBRDF不変な両眼立体視
BRDF Invariant Stereo Using Light Transport Constancy

Liang Wang, IEEE, Ruigang Yang, IEEE Computer Society, James E. Davis, IEEE

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1616-1626 , September 2007

Keywords: Stereo, BRDF, rank constraint, light transport constancy, non-Lambertian

両眼立体視による三次元情報復元のためのほぼすべての既存方法が、シーン反射率がランベール反射率であることを前提とし、輝度の定常性をマッチング不変量として利用する。照明移動定常性(light transport constancy:LTC)と呼ばれる、両眼立体視による三次元情報復元のための新しい不変量を導入する。これにより完全に任意のシーン反射率(双方向性反射率分布関数:bidirectional reflectance distribution functions (BRDFs))の下で三次元情報の復元が可能となる。照明強度のみが変化する複数の照明構成の下でシーンが観測される場合、この不変量を用いて、マルチビューの両眼画像マッチングに対するランク拘束条件を作ることができる。更に、2つ以上のカメラ、2つ以上の照明光源の構成で、このマルチビュー拘束条件が利用可能であることを示す。これまでのBRDF不変量による両眼立体視法と異なり、LTCは精密に構成された、もしくは校正された照明光源や、シーン中の校正用オブジェクトを必要としない。重要なのは、適切な照明変化が得られる限りにおいて、すべての既存の両眼立体視法に対して、この新しい拘束条件を用いてBRDF不変量を計算することができることである。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


照明変化条件下において人間の顔マッチングを凌駕する、顔認識アルゴリズム
Face Recognition Algorithms Surpass Humans Matching Faces Over Changes in Illumination

Alice J. O'Toole, P. Jonathon Phillips, Fang Jiang, Janet Ayyad, Nils Penard, Herve Abdi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1642-1646 , September 2007

Keywords: face and gesture recognition, performance evaluation of algorithms and systems, human information processing

近年、コンピュータに基づいた顔認識アルゴリズムの性能向上において、先の10年を上回る顕著な進歩がみられる。多くのアルゴリズムが徹底的にテストされ、相互に比較されてきたが、驚くことにコンピュータに基づいた顔認識システムと人間の顔認識能力を比較した研究はごくわずかである。我々は7つの最新の顔認識アルゴリズムと人間の顔認識能力を比較する。人間の顔認識能力とこれらのアルゴリズムを用いて、異なる照明条件下で撮影された顔画像の対が、同じ人間のものか、異なる二人の人間の顔かを識別することで試験を行う。事前審査で“識別困難”とされていた画像対において、3つのアルゴリズムが人間の能力を上回る性能を示した。また、事前審査で“識別容易”とされた顔画像対において、6つのアルゴリズムが人間の能力を上回った。照明変化条件が、顔認識アルゴリズムにとって困難なものであるにもかかわらず、現在の最新のアルゴリズムは、人間の能力に良く伍するといえる。今現在最良の性能基準は人間の顔識別能力であり、これを基にしたアルゴリズムの比較が必要である。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルチビュー幾何拘束条件による、移動するカメラにより撮影された強度の視差がある画像の動き領域の検出
Detecting Motion Regions in the Presence of a Strong Parallax from a Moving Camera by Multiview Geometric Constraints

Chang Yuan, Gerard Medioni, Jinman Kang, Isaac Cohen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1627-164 , September 2007

Keywords: Motion detection, multiple view geometry, epipolar constraint, plane plus parallax

静的な三次元構造に起因する強度の視差がある場合の、移動するカメラにより撮影されたビデオ画像系列における動き領域の検出のための方法を示す。2次元平面ホモグラフィー(2D planar homography)、エピポーラ拘束条件、そして新しい幾何拘束条件を連続的に適用することで、提案手法は画像の各画素を二次元の背景、視差、もしくは動き領域に分類する。この幾何拘束条件は“構造整合性拘束条件”と呼ばれるものであり、本研究の一番の成果である。これは3つのフレームからの相対的なカメラの姿勢から導出され、“平面+視差”フレームワークにおいて実装されるものである。これまでの平面―視差拘束条件と異なり、提案する拘束条件は複数のビューで定常となる参照平面を必要としない。これにより、異なるカメラ姿勢から撮影された同一点、及び参照平面の変化による射影構造間の不整合を直接測量する。この構造整合性拘束条件により、同一方向に動くカメラにより撮影された、動くオブジェクトを検出することができる。これは縮退構成と呼ばれるものであり、この構成下ではエピポーラ拘束条件が成り立たない。実世界のビデオ画像系列を利用した実験結果により我々の方法の効果と頑健性を例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


疎な事前確率を利用した、単一の画像からの、ユーザによる補助を前提とした表面反射率の分離
User Assisted Separation of Reflections from a Single Image Using a Sparsity Prior

Anat Levin, Yair Weiss

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1647-1654 , September 2007

Keywords: NONE

透明なガラスを通して写真を撮影した場合、得られる画像は往々にして2つの画像の重畳となる。この二つとは即ち、ガラスの向こうのシーンと、ガラスに反射したシーンである。単一の入力画像を2つの画像に分解することは重度の不良設定問題であり、観察されるシーンに対する追加の情報がない場合、無限数の有効な分解ができてしまう。本稿ではより簡単な問題にフォーカスを当てる。それはユーザによる補助を前提とした分解法である。この方法では、ユーザが対話式に、少数の勾配をいずれかのレイヤーにラベル付けする。全ての勾配のうちの一部にラベル付けするだけでは、この問題はやはり不良設定であり、追加の事前知識を必要とする。最近の自然画像の統計の研究成果に則って、導関数フィルタと共に疎な事前確率を利用する。反復的再加重最小二乗アプローチ(iterative reweighted least squares:IRLS)を用いて、この疎な事前確率を最適化する。我々の実験結果は、自然画像の統計から導出された事前確率を用いることにより、ガウシアン事前確率を用いる方法よりも、遙かに優れた性能が得られること、そしてこれにより適当な数の勾配のラベル付けにより、2つの画像の良い分離が得られることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


散乱媒体における正規化画像復元
Regularized Image Recovery in Scattering Media

Yoav Y. Schechner, Yuval Averbuch

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1655-1660 , September 2007

Keywords: Color, Polarization, Vision in bad weather, Inverse problems, Dehazing

散乱媒体中で撮像する場合、オブジェクトとの距離が増大するに従って視界は悪くなる。コンピュータビジョンの方法を用いることで、この様な場合でも視界を顕著に回復することができる。この方法では、画像構成に際して起こる物理的なプロセスを考慮に入れる。しかし、この視野回復は、媒体の透過率が低い場合に遠距離オブジェクトに対応する画素におけるノイズを増大させる傾向がある。上記の問題に対する適応フィルタリングアプローチを示す。この方法は、元画像に対して相対的に顕著に視野を回復するが、ノイズの増大は抑制する。本質的に、視野回復の方法は正規化されている。この正規化は空間的に変化する媒体透過率に適合するものである。これによりこの正規化は閉合オブジェクトをノイズによりぼかすことがない。このアプローチを、媒体透過率を決定するための自動的方法に基づいた大気中および水中の実験により例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


効果的な見えフィルタに基づいた適応的オブジェクト追跡
Adaptive Object Tracking Based on an Effective Appearance Filter

Hanzi Wang, David Suter, Konrad Schindler, Chunhua Shen

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1661-1667 , September 2007

Keywords: Particle filters, mixture of Gaussians, appearance model, similarity measure, color histogram,, visual tracking, occlusion

我々は本校で空間―色混合ガウシアン(Spatial-color Mixture of Gaussians:SMOG)に基づいた類似性尺度を提案する。これは色ヒストグラムに基づいた多くの類似性尺度を向上させる。なぜならばこの方法は領域の色のみならず、その色の空間的なレイアウトも考慮に入れるからである。これによりSMOGに基づいた類似性尺度はより特徴の際立ったものとなる。SMOGのためのパラメタを効率的に計算するために新しい技法を提案する。これにより、計算時間は大幅に短縮される。複数のキューを統合することで我々の方法を拡張し、信頼性と頑健性を向上させる。実験結果により我々の方法が多くの異なるシチュエーションでオブジェクトを追跡できることが示される。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


レーダーSAR画像の識別のための偏差基準の応用
Application of the Deflection Criterion to Classification of Radar SAR Images

Cyrille Enderli, Laurent Savy, Philippe Refregier

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1668-1672 , September 2007

Keywords: Classification, Deflection, Likelihood ratio approximation, Fisher ratio, Radar

レーダーターゲットの識別のための二次フィルタを用いた重みづけ偏差の新たな応用を提案する。最適フィルタの明示的な公式化を与える。重みづけされたパラメタの実画像認識に対するインパクトを解析し、偏差がフィッシャー比に一致する場合、この方法の性能がより良いものとなることを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


球状表面フィッティングのための簡単な方法
A Simple Method for Fitting Sphere-Like Surfaces

Michael A. Penna, Kris A. Dines

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 9, pp. 1673-1678 , September 2007

Keywords: Sphere-like surface, spherical harmonics, data fitting

本稿では球状表面の、3空間におけるデータセットへのフィッティングのための新しい簡単な方法を示す。球面調和関数を利用する標準的な手法に比べ、特に疎なデータや、不均一なデータの問題を扱う場合、本手法はコンセプト面でより簡単であり、計算面での複雑性及び計算強度がより低い。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.10


顔表情部品の認識に、これらの動的で意味的な関係を利用
Facial Action Unit Recognition by Exploiting Their Dynamic and Semantic Relationships

Yan Tong Wenhui Liao Qiang Ji

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. pp. 1683-1699 , 10 2007

Keywords: Facial Action Unit Recognition, Facial Expression Analysis, Facial Action Coding System, Bayesian Networks

顔表情を自動的に実時間で解析するシステムは広くて多くの用途がある。しかし、このようなシステムを実際に開発するとなると、表情の豊かさ、あいまい性、必然的に伴う動きなどにより、常に困難が伴う。多くの研究グループが顔の動き単位( action units=AUs )の認識を試みているが、そのためのには顔特徴抽出法の改良か、あるいは、AUのクラス分け法の改良のどちらかを採用しており、これらはAUを個々に統計的に利用するか、あるいは特定のAU の組を認識するかのどちらかである。このときAU間の意味的関係や動的関係は無視されている。したがって、これらの手法ではAUとを安定的に、ロバストに、確実にあるパターンを探し出せる。本論文では、系統的にAU間の関係や、それらの時間的進化をを考慮する新規な手法を提案する。特に、AU間のモデルとして、動的ベイズネットワークモデル(DBN)を利用する。このDBNによって整合性のある統一的階層的確率的枠組みによって多様なAU間の確率的な関係が表現できるため、顔表情の進展の時間的変化にも対応する。このシステム内ではAU尺度の獲得にはロバストなコンピュータビジョン手法が用いられた。このようなAU尺度は、多様なAUの推測のためにDBNに対するエビデンスとして応用された。実験結果から、AU尺度によるAU関連の統合とAU動力学はAUの認識を大きく前進させたことが示された。特に、照明の変化や顔の姿勢変化、隠蔽などの現実的環境における自然な顔表情に対して有効であった。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪歩行認識のための汎用テンソル判別解析とガボール特徴量
General Tensor Discriminant Analysis and Gabor Features for Gait Recognition

Dacheng Tao Xuelong Li Xindong Wu Stephen J. Maybank

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1700-1715 , 10 2007

Keywords: Gabor Gait, General Tensor Discriminant Analysis, Human Gait Recognition, Linear Discriminant Analysis, Tensor Rank, Visual Surveillance

伝統的な画像表現法は従来の識別法である線形判別解析法などには適してない。その理由は特徴量空間の次元数が学習サンプル数よりもずっと大きいことが原因である。2次元LDA法 (2DLDA)による顔認識の成功に刺激され、一般化テンソル判別分析法 (GTDA)をLDAの前処理ステップとして開発した。従来の主成分分析 (PCA) や2次元LDA法などの前処理法と比較して、このGTDAの利点は、1)LDAのように引き続いての識別処理が必要ないこと;2)学習したテンソルには識別情報が保存されていること、3) GTDA は安定した認識率を与えるが、その理由は、2DLDAと異なり、GTDAの解を求める交互投影最適化アルゴリズムは収束するからである。この提案GTDAを人の歩行画像に適用した結果、我々の手法が優れていることが確認された。歩行画像表現には平均化した歩行画像を利用した。画像理解やオブジェクト認識にガボール関数による画像分解の利用が流行しているが、我々は3つの異なるガボール関数に基づく画像表現を開発した:1)方向別のガボールフィルターを加算したGaborD表現、2)いろんなスケールに関するガボールフィルターを加算したGaborS表現、3)方向別、スケール別にガボールフィルターを加算したGaborSD表現、である。平均化された歩行画像から人を認識するために、これらGaborD, GaborS,GaborSD表現が利用された。この手法を評価するために、大量の実験が行われたが、最初にGabor, GaborD, GaborS, GaborSD画像表現を得て、次に、GDTAを利用して特徴量を抽出し、最後にLDAによって識別した。この提案手法はUSF HumanID Databaseからの連続画像に対する実験で、良好な歩行認識を達成した。歩行認識に関する最新の9つの方式と比較した。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


複最小メッセージ長に基づく、有限な一般化ディリヒレー混合モデルの高次元教師無し選択と推定
High-Dimensional Unsupervised Selection and Estimation of a Finite Generalized Dirichlet Mixture Model Based on Minimum Message Length

Nizar Bouguila Djemel Ziou

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1716-1731 , 10 2007

Keywords: Finite mixture models, generalized Dirichlet mixture, EM, information theory, MML, AIC, MDL, LEC, data clustering, image database summarization, webmining

我々は、クラスター数の知識無しで、高次元データ構造の決定問題を考える。データは、一般化ディリヒレー分布に対する有限混合モデルによって表現される。一般化ディリヒレー分布はディリヒレー分布よりもっと一般化した共分散構造を持っているため、対称的分布や非対称分布の近似にも高い柔軟性を示し、使い易い。このために、一般化ディリヒレー分布は、より実用的で有用である。混合モデルの重要な問題の1つにクラスターの数を決定する問題が有る。成分の数が多過ぎたり少な過ぎる混合分布の場合は、真のモデルを予測するにはふさわしくない。ここに、最小メッセージ長(MML) の原理を利用してクラスター数を決定する応用について考察する。MMLが導入されたのは、データ記述が最良の混合モデルのクラスター数を選ぶためである。他の選択基準との比較も行われた。人工的データ、実データのクラスタリングによる確認実験以外に、2つの興味ある現実的用途がある:ウェブページの識別、効率的検索のためのテクスチャーデータベースの要約化。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


判別部分空間解析:Fukunaga-Koontz手法
Discriminant Subspace Analysis: A Fukunaga-Koontz Approach

Sheng Zhang Terence Sim

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1732-1745 , 10 2007

Keywords: discriminant subspace analysis, Fukunaga-Koontz transform, pattern classification

フィッシャー線形判別法はパターン認識にしばしば利用されている。これは、フィッシャーの基準によれば識別パターンを最大限分離するような線形部分空間を見つけることである。FLDを計算するいくつかの方法が文献で提案されて言うが、そのほとんどはいわゆる分散行列(scatter matrix)を計算する必要がある。本論文ではFLDをFukunaga-Koontz変換 (FKT)させることで新たな展望を開く。我々はこのために、全データ空間において、それぞれ異なる固有値比を有し、異なる区分性能を有する4つの部分空間に分解する。この固有値比を一般化固有値で結合することにより、ここではフィシャー基準を最大限満たしていることを示す。また、FLD と FKTの関係を解析的に証明するとともに、いくつかの既存の研究を理解するための統一的枠組みを提案する。さらに、我々の理論を多重判別解析(Multiple Discriminant Analysis (MDA))へと拡張する。これを行うために、データをクラス内、クラス外空間に変換し、続いて、Bhattacharyya距離を最大化する。FKT解析に基づき、MDA/FKTの判別部分空間を同定し、分散行列が特異であったり、大き過ぎで形成できない場合にも適用可能な効率的アルゴリズムを提案する。この方法の正当性を人工的データと実データの両方で示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


凝縮した最近傍データ領域の記述
Condensed Nearest Neighbor Data Domain Description

Fabrizio Angiulli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1746-1758 , 10 2007

Keywords: classification, data domain description, data condensation, nearest neighbor rule, novelty detection

正常なデータと異常なデータを見分ける教師無しで識別する単純で効果的な方法を提案するが、これはオブジェクと参照データの最近傍距離がある閾値内に入っている場合は正常モデルであると見なす方法である。この研究では元のデータの部分集合を識別器の参照集合として利用する効果を調査する。この目的で、参照データと整合性の有る部分集合を用意し、最小基数(minimum cardinality;そのスロットの取りうる最小値)の参照データに整合性のある部分集合が見つけることが出来ないことを示す。そして、CNNDDアルゴリズムが記述でき、これによって参照データと整合する部分集合をたった2つの参照集合を経由させる。実験結果から凝縮データ集合の利点が明らかになり、本提案手法の効果を確認した。関連する方法との比較も行い、1つのクラスの最近傍に基づく訓練集合と整合性のある凝縮の長所・短所をまとめた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


少しの事例を利用して時系列の変換を学習する
Learning to Transform Time Series with a Few Examples

Ali Rahimi Ben Recht Trevor Darrell

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1759-1775 , 10 2007

Keywords: Semi-supervised learning, example-based tracking, manifold learning, nonlinear system identification

我々は準教師付き学習による回帰アルゴリズムについて述べるが、これは変換事例を利用して1つの時系列から他の時系列へ変換することを学習する。このアルゴリズムは、観察されたセンサーからの時系列信号を、標的の姿勢を記述できる時系列信号へ変換追跡することに応用される。このような追跡課題を1回ごとの変換の実装を繰返し定義する代わりに、時系列の中から少数の入出力のマッピング例をmemoryless 変換に学習させる。このアルゴリズムは、学習例に適合する滑らかな関数を探索し、入力時系列を仮定された動力学に従って進化させた時系列信号作る。この学習処理は高速で、閉形式の解に適合する。これは非線形のシステム同定と多様体学習法に密接に関連している。このアルゴリズムをRFIDタグからの信号強度測定、剛体オブジェクトの姿勢の復元、変形可能な物体、ビデオ時系列から明瞭化するなどの追跡課題として実証する。これらの課題に対して、本システムは出力時系列信号の動力学的配慮のされてないアルゴリズムに比べ、極めて少ない事例で済む。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


光-音響ステレオのエピポーラ幾何
Epipolar Geometry of Opti-Acoustic Stereo

Shahriar Negahdaripour

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1776-1788 , 10 2007

Keywords: Stereovision, Epipolar Geometry, Triangulation, Optical and Acoustic Imaging

水中の構造物を検査するための、光と音響の情報が取得できるカメラは、通常の保守にもセキュリティ活動するにも適している。解像度が高くても、カメラを乱流環境で使用すれば、可視距離は限られている。これに比較して新世代のメガヘルツ帯の高周波音響カメラは、強い乱流中でも被写体の細部まで画像化してくれるが、ただし、その観察可能距離は従来のキロヘルツ以下の音響システムに比べて2桁も低下する。したがって、効果的な検査するための戦略は乱流中で使える水中プラットフォームに装着できる光学・音響カメラと言うことになる。以上の筋書きに沿って視野が確保できる場所では双眼立体視によって貴重な情景情報を提供する。これは、各センサー個別の情報だけでは容易に再現できない。エピポーラ幾何と立体視3角形を利用し、2つの異なる投影モデルを持つ2つの信号取得形態を利用し、この構成の制約方程式を導く。コンピュータシミュレーションに支えられた理論的結果は、光学-音響的立体撮像系は、特に被写体の距離が大きいときや乱流が大きいときには、光学カメラによる従来の双眼立体視系を大きく上回ることを示している。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的モザイク貼りあわせ:動的情景のモザイク貼りあわせ
Dynamosaicing: Mosaicing of Dynamic Scenes

Alex Rav-Acha Yael Pritch Dani Lischinski Shmuel Peleg

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1789-1801 , 10 2007

Keywords: video mosaicing, dynamic scene, video editing, graph cuts, panoramic mosaicing, time manipulations, space-time volume

本論文はビデオ画像の編集において、経時的にイベントを制御し、時間を操作することを目的にしている。このような時間の操作には、あるイベントを遅らせたり別のイベントを速くするということも含まれている。ビデオカメラで情景を撮影するとき、時間を一定にして貼りあわせると、パノラマ画像となる。時間操作するためには、まず、時間と空間の体積空間にビデオ画像を構成すると事から始まる。続いて、この体積に沿って連続的2D切り出し画像を作り、新しい画像系列を作る。この新しい動的情景を提案するため、動的定数 (Dynamic Constancy) と呼ばれる新しい概念を提案するが、この表現は、従来の「輝度一定」のような定数より、もっとふさわしい。 もう一つの挑戦は、オブジェクトの内部のつなぎ目を無くすことであり、任意幾何表現を持つ時空の体積内をスウィープするとき生じる視覚的な異物 (artifact) を避けることである。このような異物の発生を防ぐため、最適時間タイムフロント幾何学を4Dグラフの最小カットを見つけ、max-flow法によって解を求めることである。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


メディアをまたがる画像インデックス付けのための意味的側面のモデル化
Modeling Semantic Aspects for Cross-Media Image Indexing

Florent Monay Daniel Gatica-Perez

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1802-1817 , 10 2007

Keywords: Image annotation, textual indexing, image retrieval, quantized local descriptors, latent aspect modeling

画像検索において、クエリー(問合せ)を出して、これに合致する事例が返信されるというパラダイムの先に進むためには、大規模な画像データがあり、直感的な意味的テキストによって検索する要求が存在する。画像集合の視覚的内容と、この画像に関するテキストの説明文(キャプション)の関連性についてのいくつかの異なる学習モデルが提案されており、これによって画像の注釈のための意味的な索引の自動作成が可能となる。この課題は現在のところ未解決である。本論文では、画像の注釈付けのための、統計的潜在意味解析学習(PLSA)のための3つの代替案を用意し、これらの自動的索引付け能力を比較評価した。PLSAの仮定の下では、画像は画像特徴量とテキストの両方を生成する潜在状態が混合したものであるとモデル化される、これら3状態の混合を学習する3通りの方法を 調べた。従来のBlobヒストグラムより、もっと表現力のある画像表現法を提案するが、この中では量子化された局所的カラー情報と局所テクスチャー記述子を関連付けしている。注釈付き画像のためのPLSA法による最初の学習手続きは標準的EMアルゴリズムであり、視覚とテクスチャーのモダリティは、暗黙的に同等に扱われる。他の2つのモデルは非対称なPLSA学習に基づいており、視覚やテクスチャーのモダリティに関する潜在空間上で条件を付けすることを可能にしている。テクスチャーのモダリティの方が、潜在空間の意味的学習に適しており、その結果注釈付けの効率も優れている。標準的データ集合に対するこの学習アルゴリズムと最近の手法との比較を紹介し、我々の枠組みの妥当性をより詳しい評価によって示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


状況に基づくオブジェクトクラスの認識と一般化コレログラムによる検索
Context-Based Object-Class Recognition and Retrieval by Generalized Correlograms

Jaume Amores Nicu Sebe Petia Radeva

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1818-1833 , 10 2007

Keywords: object recognition, retrieval, boosting, spatial pattern, contextual information

オブジェクトの新規なイメージ表現法である一般化コレログラム(generalized correlogram=GC)に基づいて、オブジェクトのカテゴリーを検索する新規な方法を紹介する。この画像表現法では、オブジェクトはGCの分布配置によって表され、各々のGCは局所部分の情報と、この局所部分とその他の部分との空間関係をコード化している(パーツ間の関係)。このような表現を利用し、弱い管理の下でオブジェクトモデルを学習し、マッチングを大量の画像に対して如何に効率的で高速に行えるかを示す。学習段階では、表現を統合化することによってシステムをブーストし、非常に少ない特徴量でコンパクトなモデルが得られることを示す。ここで各特徴量は、オブジェクトのパーツに関するキーの特徴量とその空間的配置に関する特徴量を伝えている。マッチング段階では、局所的パーツの間の空間的関連性を効率的に考慮できるための表現を利用する直積的手続きを提案する。転置ファイルのように適当なデータ処理と組合せで考え、何千もの画像ファイルが効率よく評価できる。この枠組みは異なる標準のデータベースにも応用され、その結果、我々の結果は最新の技術と比較して、計算速度の面でも精度の面でも遅れてないことを示した。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ロバストな形状復元のための準凸最適化
Quasiconvex Optimization for Robust Geometric Reconstruction

Qifa Ke Takeo Kanade

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1834-1847 , 10 2007

Keywords: multi-view geometry, geometric reconstruction, convex programming, directional uncertainty, robust

コンピュータビジョンでの形状再構成問題は2D画像の再投影誤差を組み合わせたコスト関数を最小化させることで解を求めることが多い。本論文では、色々な形状再構成問題において、再投影誤差関数は共通で、かつ、準凸に定式化される。この準凸性に関しては、新規の準凸性の枠組みを示し、形状再構成問題は、すぐにも解ける小規模な少数の凸プログラムとして定式化することが可能となる。最終の再構成アルゴリズムは単純で直感的な幾何学的解釈ができる。既存の局所最小化手法と比べると、我々の方式は決定論的で、最小化結果に、予め定められた精度を保証することができる。準凸性が可能であれば、測定における有向性不確定性と外れ値の処理に直感的方法を導入できる。測定に外れ値があれば、ロバストな誤差関数にグローバルな最小値を導入できる。大規模な問題において計算資源が限られている場合、再構成誤差として上限(下限ではない)を与える効率的近似法を与えることができる。このアルゴリズムを人工的データと実データに適用し、その効果を実証できた。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


隠れ条件付確率場
Hidden Conditional Random Fields

Ariadna Quattoni Sybor Wang Louis-Philippe Morency Michael Collins Trevor Darrell

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1848-1852 , 10 2007

Keywords: object recognition, model, supervised learning, classification

入力が局所的観察のグラフで表現される構造を持った領域において、潜在的変数判別モデルによる識別問題を紹介する。隠れ状態の条件付確率場枠組みは、局所特徴量に関する潜在的変数の集合を学習する。複数の観察は独立している必要はなく、時間的にも空間的にもオーバーラップもしてないだろう。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


B-Splineモデルを利用した2Dアフィン変換不変の輪郭マッチング
2D Affine-Invariant Contour Matching Using B-Spline Model

Yue Wang Eam Khwang Teoh

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1853-1858 , 10 2007

Keywords: Curve matching, B-Spline model, Curvature scale space, Curve smoothing

本論文はBスプラインによるモデル化に基づく新規なアフィン変換不変のマッチングアルゴリズムを紹介し、これが曲線マッチングにおいてB-Splineの非固有性の問題を解く。まず最初に曲線の次数を増やしてB-Splineを滑らかにする。次に、Least Square Error (LSE)法によって曲線の次数を下げ、曲率スケール空間(Curvature Scale Space (CSS))画像を構築する。CSSマッチングが実行される。我々の手法は連続曲線であるB-Splineと、ノイズやアフィン変換にロバストなマッチングであるCSSの組合せである。曲線の再サンプリングが必要な他のマッチングアルゴリズムは必要としない。したがって、曲線マッチング誤りは減少する。本提案アルゴリズムはプロトタイプデータベースからの類似形状のマッチングを使ってテストした。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


双方向テクスチャー関数のモデル化と超高圧縮
Extreme Compression and Modeling of Bidirectional Texture Function

Michal Haindl Ji?i Filip

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1859-1865 , 10 2007

Keywords: Rough texture, 3D texture, BTF, texture synthesis, texture modeling, data compression

仮想現実用途において、最近の進歩した現実そっくりの表現法に、双方向テクスチャー関数(Bidirectional Texture Function (BTF))があり、この関数は変化する照明条件や眺める方向に対しても自然なテクスチャーを有する外観を表現する。このような関数は、材料サンプル毎に数千に上る測定(画像)によって表現される。その結果得られたBTFのサイズには、グラフィカルな用途の直接的なレンダリングを除いても、この巨大なBTFデータ空間の圧縮は明らかに避けられない。本論文では新規で高速な確率論的モデルに基づくアルゴリズムによる本物そっくりのBTFモデルを可能にする超高圧縮のハードウエア上での実装を紹介する。この最終的な狙いは、オリジナルな画素レベルの測定を行わないで、同じ視的質感を与えることである。このアルゴリズムの解析ステップは、BTF空間のセグメンテーションとBTF表面の測光ステレオ法による距離マップ推定から始まる。これに続き、選択された部分空間カラーテクスチャー画像のスペクトルと空間の因子分解が行われる。単一の単色でバンド制限のある因子は特定の空間確率モデルによってモデル化される。レンダリング中、任意のサイズの部分空間画像は独立に作られており、両方の色(多スペクトルが望ましいが)と距離情報が一緒にバンプマップフィルター中で関連付けされている。この示されたモデルはBTFの高圧縮率を実現しており、サンプリングに基づく他の方法では実現不可能である。同時にこのモデルによってBTF計測モデルの欠損部分を再構成している。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非剛体3D形状復元のための表面変形モデル
Surface Deformation Models for Nonrigid 3D Shape Recovery

Mathieu Salzmann Julien Pilet Slobodan Ilic Pascal Fua

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1866-1868 , 10 2007

Keywords: Rough texture, 3D texture, BTF, texture synthesis, texture modeling, data compression

仮想現実用途において、最近の進歩した現実そっくりの表現法に、双方向テクスチャー関数(Bidirectional Texture Function (BTF))があり、この関数は変化する照明条件や眺める方向に対しても自然なテクスチャーを有する外観を表現する。このような関数は、材料サンプル毎に数千に上る測定(画像)によって表現される。その結果得られたBTFのサイズには、グラフィカルな用途の直接的なレンダリングを除いても、この巨大なBTFデータ空間の圧縮は明らかに避けられない。本論文では新規で高速な確率論的モデルに基づくアルゴリズムによる本物そっくりのBTFモデルを可能にする超高圧縮のハードウエア上での実装を紹介する。この最終的な狙いは、オリジナルな画素レベルの測定を行わないで、同じ視的質感を与えることである。このアルゴリズムの解析ステップは、BTF空間のセグメンテーションとBTF表面の測光ステレオ法による距離マップ推定から始まる。これに続き、選択された部分空間カラーテクスチャー画像のスペクトルと空間の因子分解が行われる。単一の単色でバンド制限のある因子は特定の空間確率モデルによってモデル化される。レンダリング中、任意のサイズの部分空間画像は独立に作られており、両方の色(多スペクトルが望ましいが)と距離情報が一緒にバンプマップフィルター中で関連付けされている。この示されたモデルはBTFの高圧縮率を実現しており、サンプリングに基づく他の方法では実現不可能である。同時にこのモデルによってBTF計測モデルの欠損部分を再構成している。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


依存トリー識別誤りとベイズ誤り率の間の関係について
On the Relationship Between Dependence Tree Classification Error and Bayes Error Rate

Kiran S. Balagani Vir V. Phoha

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1866-1868 , 10 2007

Keywords: bayes error rate, entropy, mutual information, classification, dependence tree approximation

Wong と Poonは、Chow と Liuによるツリー依存近似はベイズ誤り率の上界を最小化することで得られる。Wong と Poonの結果は、条件付エントロピーH(w|X)を拡張した結果として得られる。我々はH(w|X)を正しく拡張し、その意味を示す。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


CASIA 虹彩データ集合version 1.0 についてのコメント
Comments on the CASIA version 1.0 Iris Data Set

P. Jonathon Phillips, Kevin W. Bowyer Patrick J. Flynn

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 10, pp. 1869-1870 , 10 2007

Keywords: iris recognition, biometrics

CASIA 虹彩データ集合version 1.0 を編集し、瞳を均一濃度の円領域で置換した画像についてコメントする。このデータ集合は、バイオメトリック研究には、すでに使用しないことをお勧めしたが、画像の性質としてそれなりの理由がある場合は別である。さらに、ICE2005開発プロジェクトに関する経験から、虹彩認識実験の報告結果をお勧めする。

ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.11


往復時間を用いたクラスタリングと埋め込み
Clustering and Embedding Using Commute Times

Huaijun Qiu, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1873-1890 , November 2007

Keywords: Commute time, clustering, embedding, Cspectral graph theory, image segmentation, motion tracking

本稿では、グラフノード間の往復時間特性をクラスタリングと埋め込みのために利用することを検討する。また、この特性を画像分割と多体動き追跡へ応用することも探索する。グラフのheatkernelにより決定される、グラフ上の緩やかなランダムウォークを検討の出発点とし、これをノード往復時間(即ち、2つのノードを往復するのにかかると想定される時間)を用いて特徴づける。このランダムウォークはグラフラプラシアンスペクトルから計算することができる。離散的グリーン関数(discrete Green’s function)を用いて、ラプラシアンスペクトルからノード往復時間を計算する方法を示す。この往復時間は、近接行列そのものよりも、データの近接に関する、より頑健な測量であると予想される。本稿ではこの往復時間の2つのアプリケーションについて探索する。第一のアプリケーションは、往復時間行列の最小固有値に対応する固有ベクトルを用いた画像分割法の開発である。この往復時間による分割法が、グループ間のコヒーレンスを弱めたまま、グループ内のコヒーレンスを高める特性があること、そして正規化カットよりも優れていることを示す。第二のアプリケーションは、往復時間に基づく埋め込みを用いた、頑健な多体動き追跡法の開発である。我々の埋め込み手順はグラフの往復時間を保持できる。またこの手法はカーネル主成分分析、ラプラシアン固有マップ、そして拡散マップに非常によく似ている。合成画像系列と実世界のビデオ画像系列の両方に対する実験結果を示し、我々の方法と他のいくつかの方法を比較する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


サブピクセル(画素よりも小さい)ターゲットに対するハイブリッド検出器
Hybrid Detectors for Subpixel Targets

Joshua Broadwater, Rama Chellappa

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1891-1903 , November 2007

Keywords: Target detection, subspace detectors, hyperspectral data, spectral mixture models

サブピクセルレベルの検出(画素よりも小さいターゲットの検出)は超スペクトル画像解析における難しい問題である。ターゲットサイズが画素よりも小さいため、検出アルゴリズムは、純粋にスペクトル情報のみに依存しなければならない。この目的のために長きにわたり様々なアルゴリズムが開発されてきたが、殆どの検出器は純粋に統計的なアプローチか、物理特性に基づいたアプローチのいずれかをとっている。我々は2つの新しいハイブリッド検出器を示す。提案する検出器は、背景のモデリングに物理特性と統計を利用することで、上記2つのアプローチの長所を利用する。提案する検出器が、よく知られたAMSD及びACEサブピクセルアルゴリズムを上回る性能を持つことを実験によって示す。本実験は、複数ターゲット、複数画像、そして複数の領域タイプを含む。特に複雑な背景における微弱なターゲットについて試験する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


歪んだドキュメントからの二次元コンテンツの復元
Restoring 2D Content from Distorted Documents

Michael S. Brown, Mingxuan Sun, Ruigang Yang, Lin Yun, W. Brent Seales

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1904-1916 , November 2007

Keywords: Document Restoration, Geometric Correction, Shading Correction, Shading Correction, Photometric Correction, Conformal Mapping, Document Processing

非一様な照明に照らされた、幾何的な歪みのあるドキュメントからの、二次元コンテンツの復元のためのフレームワークを示す。一般的に、テキストに基づいた文書画像処理アプローチでは、充分に可読なテキストを得るレベル、もしくはOCRが利用可能なレベルまで歪みを修正する必要がある。これに対し我々の方法は、非テキスト文書から、印刷されたオリジナルのコンテンツを復元することを対象とする。このため我々のフレームワークは、文書表面の三次元スキャンと高解像度画像を共に利用する。これは等角“スキュー補正”であり、文書表面のパラメトリックモデルを仮定せず、それゆえ任意の歪みを扱うことができる。三次元形状を用いて照明補正を行い、高解像度画像を利用して印刷されたコンテンツの勾配エッジと照明の勾配エッジを分離する。印刷コンテンツのエッジのみを用いることで、照明ノイズが顕著に少ない反射率画像を生成する。このアプローチでは、光源とその位置に対するいかなる仮定も設けない。幾何的及び測光学的な補正を組み合わせることにより、最終的な出力画像を得る。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


筆記者非依存の記号認識器を用いた、筆記者依存の記号認識のための実用的なアプローチ
A Practical Approach for Writer-Dependent Symbol Recognition Using a Writer-Independent Symbol Recognizer

Joseph J. LaViola Jr., Robert C. Zeleznik

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1917-1926 , November 2007

Keywords: Handwriting recognition, AdaBoost, writer dependence, writer independence, pairwise classification, real-time systems

筆記者非依存の認識エンジンを利用することで、筆記者依存の記号認識器の訓練要求を削減しつつ精度と速度を向上させる実用的な技法を示す。我々の筆記者依存の認識器はAdaブースト学習アルゴリズムに基づいた二値識別器の組を利用する。組み合わせ可能な記号比較の対それぞれに対して、一つの識別器を割り当てる。各識別器は低度の学習器の組からなる。ひとつは筆記者非依存の手書き文字認識器である。オンライン認識では、更に筆記者依存認識器の出力からn個の最良の結果を用いる。これにより組み合わせ可能な記号の組を間引きし、必要とされる二値識別器の数を減らす。本稿では我々の識別器で使用される幾何的及び統計的特徴と、全組識別アルゴリズムを説明する。筆記者非依存認識エンジンを筆記者依存認識器に組み込むことによる、精度、速度、そしてユーザの訓練時間に対する効果を定量化するための実験を行い、その結果を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


自動顔認識のための効率的なマルチモーダル二次元―三次元ハイブリッドアプローチ
An Efficient Multimodal 2D-3D Hybrid Approach to Automatic Face Recognition

Ajmal Mian, Mohammed Bennamoun, Robyn Owens

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1927-1943 , November 2007

Keywords: Biometrics, face recognition, rejection classifier, 3D shape representation

本稿で我々は、完全自動顔認識アルゴリズムを示し、その性能をFRGC v2.0データを利用して例証する。我々のアルゴリズムはマルチモーダル(二次元および三次元)であり、ハイブリッド(特徴に基づく形式と、全体論的な形式による)マッチングにより、高い効率と表情の変化に対する頑健性を実現する。自動的に検出される単一の点に基づいた新しいアプローチとHotelling変換を用いることで、三次元の顔の姿勢とそのテクスチャを自動的に修正する。認識対象の母数が大きい場合でも高効率を達成するために、新しい三次元球面顔表現(Spherical Face Representation:SFR)をSIFT記述子との結合に用いて、処理の初期段階で高速に多数の候補顔画像を除外するための棄却識別器を構成する。この処理で残った顔画像を、新しい領域に基づいたマッチングアプローチにより検証する。本アプローチは自動的に、目から額にかけての領域と、鼻領域とを分離する。鼻領域は表情の変化に対して比較的安定である。修正ICPアルゴリズムを用いて鼻領域を目―額領域と別個にマッチングする。高精度を達成するために全てのマッチングエンジンの結果をメトリックレベルで融合する。FRGCベンチマークを用いて我々の方法を他のアルゴリズムと比較する。我々のマルチモーダルハイブリッドアルゴリズムは、自然な表情及び不自然な表情それぞれに対して、0.001%FARにおける検証率99.74%および98.31%を、同定率99.02%および95.37%を達成し、他のアルゴリズムよりも良い性能を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


固有ベクトルを用いない重み付きグラフカット:マルチレベルアプローチ
Weighted Graph Cuts without Eigenvectors A Multilevel Approach

Inderjit S. Dhillon, Yuqiang Guan, Brian Kulis

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1944-1957 , November 2007

Keywords: Clustering, Data Mining, Segmentation, Kernel, k-means, k-means, Spectral Clustering, Graph Partitioning

近年、線形分離できないデータを扱うためのクラスタリングアルゴリズムが多数提案されている。これらのうちの主なものとしては、スペクトルクラスタリングとカーネルk平均法がある。本稿では、一見異なって見えるこれらの方法で用いられる目的関数の間の等価性について議論する。特に一般的重み付きカーネルk平均目的関数は、重み付きグラフクラスタリング目的関数と数学的に等価であることを論ずる。この等価性を用いて高速かつ高品質なマルチレベルアルゴリズムを開発する。このアルゴリズムにより、popular ratio cut, 正規化カット、そして比率関連基準などの様々な重み付きグラフクラスタリング目的関数を直接最適化できる。これによりグラフクラスタリング問題のための固有ベクトルを計算する必要がなくなる。大きなグラフに対して固有ベクトルを計算することは非常に困難である。Meitsなどの以前のマルチレベルグラフ分割法は、同じサイズのクラスタという制約に苦しめられてきた。我々のマルチレベルアルゴリズムは、カーネルk平均法を用いて重み付きグラフカットを最適化することで、この制約を取り払う。実験結果により我々のマルチレベルアルゴリズムが、速度、メモリ使用、そして品質の面で、最新のスペクトルクラスタリングアルゴリズムを凌ぐ性能を持つことを示す。画像分割、ソーシャルネットワーク解析、そして遺伝子ネットワーク解析などの大規模なクラスタリングに対して、我々のアルゴリズムが適用可能であることを例証する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


動的モデルの識別および認識:位相、独立成分、カーネル、そして最適移動の役割
Classification and Recognition of Dynamical Models: The Role of Phase, Independent Components, Kernels and Optimal Transport

Alessandro Bissacco, Alessandro Chiuso, Stefano Soatto

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1958-1972 , November 2007

Keywords: System Identification, Blind Deconvolution, Non-minimum Phase, Distance, Kernel, Hammerstein models, Optimal Transport, Wasserstein models, Non-Gaussian models, Learning, Time Series, Higher-Order Statistics

本稿で我々は意思決定問題を扱う。特にデータの時系列を比較するための、動的モデルの世界における識別と認識について論じる。シーン中の人間の動き認識のためのアプリケーションを開発するために、非ガウシアンプロセスにより駆動されるモデル、安定及び低安定性(周期性)モデル、最小及び非最小位相モデル、そして線形動力学を含むモデルのクラスを検討する。このためには、既存の学習アルゴリズム及びシステム同定アルゴリズムを拡張し、データの高次統計量を考慮に入れることで、周期モードと非最小位相の振舞いを扱えるようにする必要がある。モデルが同定されれば、入力の分布、モデルの動力学、及び初期条件を含んだ、カーネルに基くモデル間のコード距離を定義できる。最適移動問題を効率的に解くことで計算される2つの任意の(非ガウシアン)分布間の新しいカーネル定義により、上記コード距離の定義が可能となる。我々のモデル選択、推測アルゴリズム、そして人間の動き合成(学習済みモデルのサンプルパス)と認識(計算された距離の最近傍識別)における距離を検証する。周期的な傾向や、非最小位相の振舞い、そして非ガウシアン入力分布を考慮に入れることで、過去のデータを比較する必要があるようなアプリケーションを含む、より広範な対象に、我々の研究成果を応用することが可能である。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


困難な画像対の登録:初期化、推定、及び決定
Registration of Challenging Image Pairs: Initialization, Estimation, and Decision

Gehua Yang, Charles V. Stewart, Michal Sofka, Chia-Ling Tsai

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1973-1989 , November 2007

Keywords: Image registration, feature extraction, iterative closest point, radial lens distortion,, decision criteria, keypoint

医療画像、自然画像および人工的なシーンなどの広範な画像を整列することができる、二次元画像対の自動登録アルゴリズムを開発する。このアルゴリズムは小規模のオーバーラップ、相当量の方向ずれ及びサイズの差異、大きな照明の変化、そしてシーン内の物理的な変化に対応する能力を持つ必要がある。このアルゴリズムの重要なコンポーネントは、オーバーラップを持たない画像対や、良好に整列するには違いがありすぎる画像対を自動的に棄却する能力である。初期化、変形パラメタの推定、そして推定の良否の自動決定のための方法を含む完全なアルゴリズムを提案する。画像対から抽出され、マッチングされたキーポイント(keypoint)を用いて初期類似性変形推定を生成する。この推定は小領域に対して高精度である。これらの初期推定をランク関数で順位付けし、個別に連続してテストする。マルチスケール特徴のマッチングによる特徴双対ブートストラップICPアルゴリズムを用いて、それぞれの推定をリファインする。整列精度、推定の安定性、そして拘束条件の整合性の測量を組み合わせた、3つの部分からなる決定基準により、このリファインされた移動推定が正しいかどうかを判定する。22の困難な画像対データにおける実験結果により、本アルゴリズムが22の画像対のうち19を効果的に整列できること、そして99.8%の偽整列を棄却できることを示す。これらの偽整列は、可能なすべての画像対を試験する段階で生じるものである。本アルゴリズムはキーポイントマッチングのみを用いるアルゴリズムを大きく上回る性能を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


地籍図グラフを画像に高精度登録するための方法
Methods for Fine Registration of Cadastre Graphs to Images

Roger Trias-Sanz, Marc Pierrot-Deseilligny, Jean Louchet, Georges Stamon

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 1990-2000 , November 2007

Keywords: Remote sensing, registration, graph labeling, stochastic methods, cartography

幾何的に不正確なグラフ中のエッジを、画像中の幾何的に正確且つ明確な境界にマッチングするための2つのアルゴリズムを提案する。ここでのグラフは、初期的な分割により画像をオブジェクトに分割するためのものである。この方法を用いることで、画像を不正確な外部データにより記述されるオブジェクトに分解することができ、画像分割問題をより簡単にできる。これらの方法を地籍図データの地理参照航空画像への登録の問題に適用する。(会計情報と実際の土地使用との比較)

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


偏光処理と2つのビューからのシェーディング情報を用いた形状推定
Shape Estimation Using Polarization and Shading from Two Views

Gary A. Atkinson, Edwin R. Hancock

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2001-2017 , November 2007

Keywords: Polarization imaging, surface shape recovery, stereo, reflectance function estimation, patch alignment

本稿では偏光処理と2つのビューからのシェーディング情報を用いた三次元表面再構築のための新しい方法を示す。本方法は標準的なデジタルカメラを用いて得られる偏光データと線形偏光に基づくものである。フレネル理論を用いて元画像を処理し、表面法線の初期推定を得る。このときこの表面が拡散型の反射タイプであると仮定する。このアイディアに基づいて本稿では表面再構成問題に対する2つの新しい成果を示す。第一の成果はシェーディング情報を利用することによる表面法線推定の強化である。ロバスト統計を用いて、各画素の計測された輝度がどのように表面方向に依存するかを推定することで、シェーディング情報を得る。これらによりオブジェクト表面の材質反射率関数(material reflectance function)を推定する。そしてこの推定を用いて表面法線のリファインを行う。第二の成果はこのリファインされた表面法線の推定を用いて、オブジェクトの二つのビューの間の関連性を構築することである。このためにまず、それぞれのビューからいくつかのパッチを抽出し、表面法線推定と局所位相幾何的特性に基づいて、エネルギー汎関数を最小化することで、これらのパッチを整列する。次に、さまざまなパッチ対の最適な整列パラメタを用いて画像対の対応を決定する。この処理により、あいまいさの無い表面法線の場を形成し、これにより表面の奥行き情報を復元する。我々の技法は、平滑かつ、金属材質でない表面に最も適している。この技法は既存の画像対応アルゴリズムを補完するものであり、画像間の対応付けを得るために顕在表面特徴を抽出する必要がない。大規模な実験により、再構成されたオブジェクトと反射率関数を、それぞれの正解と比較する。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


逆極座標化レイトレーシングによる透明オブジェクトの形状推定
Shape Estimation of Transparent Objects by Using Inverse Polarization Ray Tracing

Daisuke Miyazaki, Katsushi Ikeuchi

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2018-2030 , November 2007

Keywords: Polarization, Raytracing, Shape-from-X, Transparency, Mueller calculus

これまでのところ、ガラスやアクリルなどの透明オブジェクトの三次元形状の計測のための方法は、わずかな数しか提案されていない。本稿では照明の偏光状態の解析により透明オブジェクトの表面形状の推定を行うための、新しい方法を提案する。既存方法は、透明オブジェクトの内部で起こる光の反射、屈折、そして伝播を完全には考慮に入れていなかった。我々は、偏光レイトレーシング法を用いることで、光の経路と偏光状態の両方を計算する。偏光レイトレーシングは通常のレイトレーシングと、ミュラー計算法の組み合わせである。通常のレイトレーシングでは光束の軌線を計算する。またミュラー計算法は光の偏光状態を計算する。まず透明オブジェクトの形状の初期値を決め、次に形状を変更することで入力偏光データと偏光レイトレーシングによりレンダリングされた偏光データ差異を最小化する。最終的に、反復計算が収束したときにオブジェクト形状が得られる。実際の透明オブジェクトで計測することで、本手法の評価を行う。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


BM3E:画像を用いた追跡のための選択的密度伝播
BM3E : Discriminative Density Propagation for Visual Tracking

Cristian Sminchisescu, Atul Kanaujia, Dimitris N. Metaxas

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2030-2044 , November 2007

Keywords: computer vision, statistical models, video analysis, motion, tracking

BM3E(Conditional Bayesian Mixture of Experts Markov Model)、即ちエキスパートマルコフモデルの条件付きベイズ混合を紹介する。これは画像を用いた選択的追跡における整合的な確率論的推定のための手法である。本モデルにより、時間的推定および不確実な推測の諸問題を扱う。またこのモデルは新しいボトムアップアプローチによるものであり、現在一般的なカルマンフィルタもしくは分子フィルタを用いて推定される生成的モデルと対をなすものである。実行時に非線形生成観測モデルの逆変換を行う代わりに、画像の観測の符号化を行う記述子から、複雑な状態分布を直接、協調的に予測する。この観測は、多くの場合、Bag-of-feature型の大域画像ヒストグラムもしくは、一般的な空間グリッドで計算される記述子となる。これらを条件付きグラフィカルモデルに統合することで、時間的な平滑性拘束条件を強化し、整合的に不確実性を管理することができる。本アルゴリズムは、分布の疎密性、混合モデリング、そして高次元連続状態空間における効率的な計算のための非線形次元性削減を結合するものである。本研究の主な成果は以下の3つである。(1)連続な時間チェーンモデルにおける特殊な推測のための密度伝播ルールを確立した。(2) エキスパートモデルのコンパクトな条件付きベイズ混合に基づいた、フィードフォワード、多値コンテキストマッピング(マルチモーダル状態分布)の学習ための、柔軟な、教師あり及び教師なしアルゴリズムを提案した。(3)単眼ビデオ画像系列における三次元空間の人間の動きの再構成において、本フレームワークを実験的に検証した。実際の動きと、モーションキャプチャーに基づいた系列の両方に対する試験により、最近傍法、回帰法、そして構造化予測法に比べて顕著な性能向上を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


時空間な振る舞いに基づいた相関、もしくは、二つの潜在的な動きが類似のものであることを計算なしに如何にして示すか?
Space-Time Behavior-Based Correlation?OR?How to Tell If Two Underlying Motion Fields Are Similar Without Computing Them?

Eli Shechtman, Michal Irani

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2045-2056 , November 2007

Keywords: Space-time analysis, motion analysis, action recognition, motion similarity measure, template matching, video correlation, video indexing, video browsing

本稿では振る舞いに基づいた類似性尺度を紹介する。これにより2つの異なるビデオ系列の、二つの時空間強度パターンが、類似した潜在的動き場によるものであるかどうかを判定する。これは、潜在的な動きを明示的に計算することなく画像の強度情報を用いて直接行うことができる。このような尺度により、ビデオ系列の類似性を検出することが可能となる。たとえば同じ種類の活動を行っている、異なる服装の人を検出することができる。この方式は、前景/背景の分離、活動の事前の学習、動き推定、そして追跡のいずれも必要としない。この振る舞いに基づいた類似性尺度を用いることで、二次元画像補正を三次元の時空間領域に拡張し、これにより動的な振る舞いと動きを関連付けることができる。短い時空間ビデオ系列(小ビデオクリップ)を全画像系列に対して、三次元(画像の縦横二次元と時間軸の一次元)全てにおいて“関連付ける”。ピーク相関値は類似した動的な振る舞いのビデオ位置に一致する。たとえ複数の複雑な動きがカメラの視野の中で同時に起きたとしても、我々のアプローチはビデオ系列中の非常に複雑な振る舞い(例えば弾丸の動き、プールへの飛び込み、流れる水など)を検出できる。更に、関連する振る舞いの、スケール及び方位の小規模変化に対する本アプローチの頑健性を示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


ハーンモメント(Hahn moments)を用いた画像解析
Image Analysis Using Hahn Moments

Pew-Thian Yap, Raveendran Paramesran, Seng-Huat Ong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, No. 11, pp. 2057-2062 , November 2007

Keywords: Hahn polynomials, Hahn moments, discrete orthogonal polynomials, normalized convolution

ハーン(Hahn)モメントを用いることによって、近年導入されたチェビシェフ(Chebyshev)モメント及びクラウチョウク(Krawtchouk)モメントがどのように統一的に理解できるかを示す。適当なセッティングにより、チェビシェフ及びクラウチョウクモメントが、ハーンモメントの特定のクラスとして得られる。そしてこれは、ハーンモメントが、上記2つのモメントの全ての特性を包含していることを暗に示している。本稿は2つの目的を持つ。1)チェビシェフ及びクラウチョウクモメントの一般化としてのハーンモメントが、大域および局所特徴抽出にどのように利用可能かを示す。2)不規則にサンプリングされた信号の局所構造の解析のための正規化畳み込みフレームワークに対して、ハーンモメントがどのように利用可能であるのかを示す。

TS

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE) Vol.29, No.12


スコアにから顔テンプレートへ:モデルに基づく手法
From Scores to Face Templates: A Model-Based Approach

Pranab Mohanty, Sudeep Sarkar, Rangachar Kasturi,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. pp. 2065-2078 , 12 2007

Keywords:

画像のマッチングスコアからテンプレートを再生する試みは、どんなバイオメトリック認証システムのセキュリティやプライバシーにも関連している。線形法を利用して、マッチングスコアから顔を再生する新規な原理を提案する。まず、与えられた顔認識アルゴリズムの振る舞いをアフィン変換によってモデル化する。このモデル化の目標は2つの顔を1つの認識アルゴリズムで認識し、対応する2点間の距離によってアフィン空間内の距離として近似することである。空間が与えられたとき独立した画像集合からのテンプレートと登録テンプレートのマッチングが1度だけ実行され、このマッチングスコアが記録される。このスコアは目的の対象物を近似アフィン(直交)空間に実装するために利用する。目的とする対象空間のアフィン空間内の座標値が与えられると、逆アフィン変換によって元のテンプレートが復元される。我々のアイデアを、3つの基本的に異なるアルゴリズムを使って説明する;マハラノビス・コサイン距離尺度による主成分分析(PCA)、ベイズ法による個人内・個人間識別器(BIC)、および特徴量に基づく市販アルゴリズム。未知の顔画像と、用意されている顔画像の独立性を示すために2つの独立したデータベースから顔のテンプレートを採用した;Face Recognition Grand Challenge (FRGC) および Facial Recognition Technology (FERET)のデータベースである。市販システムでは1196のサンプルに対し、誤認識率1%、真の認識率99%の条件で、600回の不法侵入試行すると73%の侵入成功率があることが判った。類似の条件で、ベイズ法に基づく方法と、PCA法では、それぞれ72%と100%の成功率が期待される。スコアを3レベルに分類し、69%、68%、49%の侵入確率が得られたが、これは我々のシステムが攻撃に対してより高いロバスト性を有することを示している。今回の提案法は、山登り法(Hill climb)法による攻撃に比べ、市販システムでは47%侵入され易いこともわかった。ここに提案するように、別個の顔からテンプレートを再構築することによって、同じ顔が何度も利用される山登り法に比べ、より厳しい脆弱性評価を示している。さらに、提案手法による利用者の顔テンプレートの再構成可能性は、プライバシーの懸念も増加させている。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


マルコフ確率場における効率的推論のための動的グラフカット
Dynamic Graph Cuts for Efficient Inference in Markov Random Fields

Pushmeet Kohli Philip H. S. Torr

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2079-2088 , 12 2007

Keywords: Energy Minimization, Markov Random Fields, Dynamic graph cuts, Maximum flow, st-mincut, Video segmentation

本論文では、st-mincut/max-flow問題を解くために高速で全自動のアルゴリズムを提案する。コンピュータビジョンの画像セグメンテーションのような動的に変化しつつあるMRFモデルのための解を得るため、本アルゴリズムが如何に効率よくMAP解を計算できるかを示そう。特に、グラフにおけるmax-flow問題の解が与えられたとき、グラフが変更された場合、この動的アルゴリズムは最大フローを効率よく計算できる。必要な計算時間はおおよそグラフのエッジの重みの変更分に比例する。我々のアルゴリズムでは、グラフの変更量が少ないときは、この動的アルゴリズムは既存のグラフカットアルゴリズム中の最良のものに比べても遥かに高速であることが実験的に確認された。まず、以下の課題に適用した。これはビデオ中のオブジェクトと背景のセグメンテーション問題である。もちろん、用途はこのような問題に限らない。アルゴリズムは汎用的であり、動的に変化する他の用途にも類似の改善が期待できる。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


局所的画像特徴量の柔軟な空間的構成
Flexible Spatial Configuration of Local Image Features

Gustavo Carneiro Allan D. Jepson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2089-2104 , 12 2007

Keywords: Local image feature, Feature clustering, Visual object recognition, Wide baseline matching, Long range matching

剛体的変型と照明系において、局所的画像特徴量が保存され再現性が保たれるように設計された。最新の画像特徴量が高い再現性を持っていたとしても、この局所的見かけだけでは信頼性のあるマッチングを実行するには情報が不足であり、その結果、データ対応付け計算で、多くのミスマッチが対応集合間に形成される。その結果、一般的に大局的空間構成に基づく幾何学的フィルターがミスマッチを減らすために利用される。しかし、この方法は拒絶されたミスマッチへの効率と、非剛性変型のロバスト性のトレードオフとなる。本稿では、局所特徴の準局所的構成に基づく非剛体変型にもロバストな、それでいて、拒絶ミスマッチに対する効率を犠牲にすることの無い、2つの幾何学的フィルターを提案する。我々の結果は、グローバルな空間的構成の特徴量によるミスマッチ除去能力を有するHough変換と比較された。この比較から、我々の方法はより優れており、剛体変形と非剛体変形のミスマッチ除去を適当な計算時間内に実施する。最後に、特徴量間の類似度だけでなく、準局所的配置を利用した最終的確認にこの手法を組み込んだ確率的認識システムを構築するための方法を示した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


確率的自然画像をモデル化するための無限分割可能なカスケード
Infinitely Divisible Cascades to Model the Statistics of Natural Images

Pierre Chainais

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2105-2119 , 12 2007

Keywords: Stochastic processes, Picture/Image Generation,, Fractals, Image Processing and Computer Vision, Statistical, Image models

無限分割可能なカスケード(Infinitely Divisible Cascades (IDC))とよばれる大きなクラスによる確率論的自然画像のモデルを提案する。IDCは当初、水力発電の乱流現象を断続的にモデル化したマルチフラクタルな時系列として一次元的に扱うために導入された。我々は無限分割可能なスカラーを1〜N次元に拡張し、文献(1)の十分発達した乱流中に関連するモデルについて解説した。本稿では2次元の場合について述べる。IDCは自然画像を扱うのに適しているように見える。これはほとんど通常の性質を保持しており、文献で知られているいくつかの独立な理論的実験的手法と整合性があるようだ。IDCの応用で興味ある点としてテクスチャー合成手続きがあることを指摘しておく。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


非直交Haar-Like底を使った画像の表示
Representing Images Using Nonorthogonal Haar-Like Bases

Feng Tang Ryan Crabb Hai Tao

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2120-2134 , 12 2007

Keywords: Non-orthogonal subspace, image representations, principal component analysis, image reconstruction

効率的でコンパクトな画像表現はコンピュータビジョンにおける基本的問題である。本稿では、1つの、あるいは、多数の画像を表現するためにHaar-Likeな2値関数を使うことを提案する。このような箱型関数の望ましい性質は画像に関する内積演算は極めて効率的であることである。画像のモデル化のための2つの互いに関連する新規な部分空間法を提案する;非直交性2値空間法(NBS)、および、2値主成分分析法(B-PCA)。NBSは2値箱型関数によって直接張られており、画像表現に利用された場合、高速テンプレートマッチングやその他の画像の応用に利用できる。B-PCAはNBSとPCAの両方の特長(高速演算とデータ構造情報のモデル化)を兼ねた部分構造空間である。新規なPCAに導かれるNBS法によってB-PCAベクトルが得られる。また、BPCAに基づくベクトルは互にほぼ直交している。その結果、非直交ベクトル分解の過程において、計算負荷の大きい擬似逆投影演算は、大きな距離歪みを伴うことなく直接内積で近似できる。実画像による実験で、画像マッチングにおいて有望な性能が得られたことから、再生や認識の課題には顕著な演算速度向上が期待される。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


半教師付き識別のための非平滑最適化法
Nonsmooth Optimization Techniques for Semisupervised Classification

Annabella Astorino Antonio Fuduli

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2135-2142 , 12 2007

Keywords: semi--supervised learning, nonsmooth optimization, bundle methods

識別問題にTSVM (Transductive Support Vector Machine)を参照しながら非平滑最適化法を応用する。ここでは、対象とする決定関数は非凸で非微分可能で、最小化困難な場合を想定する。我々は2値識別問題の文献から抽出した標準的テスト問題をこの手法で数値的に解いた結果を示す。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


直交化隣接保存投影法:投影法に基づく次元削減法
Orthogonal Neighborhood Preserving Projections: A Projection-Based Dimensionality Reduction Technique

Effrosyni Kokiopoulou Yousef Saad

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2143-2156 , 12 2007

Keywords: Linear Dimensionality Reduction, Face Recognition, Data Visualization

本論文は直交投影による次元の削減問題を考察する。この提案手法の主な特徴は、対象データに固有な近傍幾何情報と全体的情報の両方を保存することを目的にしていることである。とくに、直交近傍保存投影法(ONPP)というデータの関連性(affinity)グラフをまず構成することから始めるが、これはある意味で、局所線形埋め込み法(Locally Linear Embedding (LLE))に似ている。しかし、入力空間と縮退空間の写像が間接的な標準的LLE とは異なり、ONPPは2つの間の明示的な線形写像を利用する。その結果、新しいデータを扱うとき直接変換でき、単純な線形変換となる。また、ONPPのカーネル変化の定義の仕方を示すとともに、教師付き学習の数値実験に応用する方法を示し、数少ない競合手法との性能比較を示す。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


オンラインでダイナミックな形状空間変形モデル法によるロバストなオブジェクト追跡法
Robust Object Tracking Via Online Dynamic Spatial Bias Appearance Models

Datong Chen Jie Yang

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2157-2169 , 12 2007

Keywords: Object tracking, online learning, dynamic spatial bias appearance model, region confidence, hierarchical Monte Carlo

本論文はビデオから動的に学習するロバストな形状空間変形法によるオブジェクト追跡法を紹介する。オブジェクト追跡において人間が確信度の異なる領域に分割し、領域確信度の推定から動的に形状が空間的に変形するモデルの利用を提案する。ある領域の確信度は,特長量空間の領域の識別能力と隠蔽部の確率を反映するように見積もられる。各フレームにおいて動的に領域確信度を学習するよう、新規な階層的モンテカルロ法を提案する。このアルゴリズムは2段階のモンテカルロ法から成っており、各レベルにおいて2つの粒子フィルタリングからなる効果の高い確信度領域をビデオフレームの時間的な整合性を利用して抽出できる手続きを有している。その後、動的空間の変形マップが高確信度領域から生成され、これがオブジェクトの見かけモデルを適応させるために利用され、ビデオ画像の隣接フレームの対応関係を捜す追跡アルゴリズムへとガイドするのに利用される。この提案法をビデオ捜索用途としての可能性を実証する。この提案法は他の多くの追跡システムを組合せ、このシステムのロバスト性を更に高めることができる。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Lidar信号の多数の反射波によるベイズ解析
Bayesian Analysis of Lidar Signals with Multiple Returns

Sergio Hernandez-Marin Andrew M. Wallace Gavin J. Gibson

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2170-2180 , 12 2007

Keywords: 3D reconstruction, burst illumination laser, delayed rejection, Lidar, photon counting, reversible jump MCMC

時間相関型単フォトン計数およびバースト照射レーザーデータを利用して距離輪郭画像とその識別を行った。一般的に、求められる課題は標的表面からの反射光の数や位置や強度を評価するために、フォトンを計数するか、光強度の積分を取るかのいずれかである。最終目的はレーザー撮像システムでオブジェクトの3D 表面を完全に特徴付けることである。著者たちは画素の処理をするための統一的な理論を示したが、これはデータに含まれるあらゆるタイプの不確実性を注意深く、かつ、完全に処理できるベイズ法に基づく方法である。我々は、逆ジャンプ・マルコフ鎖モンテカルロ法を利用し、パラメータの事後分布を評価し、異なるディメンジョンの空間を探索した。さらに、遅延拒絶ステップを使って生成されたマルコフ鎖と、異なる提案分布を混合させることを可能にした。この手法はシミュレーションデータと実データの両方に対して実証された。このことから、反射パラメータには高精度に至るまで推定可能であることが示された。さらに、本手法は遠方でも近距離でも実用的であることを示された。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像形態の多段セグメンテーションと位置合せ
Multiscale Joint Segmentation and Registration of Image Morphology

Marc Droske Martin Rumpf

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2181-2194 , 12 2007

Keywords: image morphology, non-rigid multimodal registration, nonlinear elasticity, Mumford-Shah approach, multiscale phase field approximation, finite element discretization

多様な画像の位置合せは、位置合せ処理直前にノイズ除去と構造セグメンテーションを行っておくことで著しい性能向上を示す。この逆も成り立つ。特に、異なる画像様式の場合、セグメンテーションは顕著にロバストになる。画像処理の基本的部分は関連性が強い。実際、多様な方法に提供してみる;対応するエッジの検出、エッジ保存性ノイズ除去、非剛体変形後のエッジ保存性ノイズ除去と形態位置合せを組合せ、構造的対応場関係を有する画像対などに。この画像関数の形態はエッジ集合からなる特異部分と、レベル集合のアンサンブルに垂直な場で表現できる定常部分とから構成される。Mumford-Shah型の自由非連結問題を変形した特異形態処理と、対応エッジのマッチング問題に適用した。定常形態は第2適用で定量化できたが、これは変形垂直場と、変形位置での垂直場を比較する。最後に、非線形弾性エネルギーが変形量を制御し、滑らかさと圧入量を制御する。位相場が基になっている多段スケール法によって効果的で効率的なアルゴリズムが導ける。数値実験から、本手法のロバスト性が確認され、医用画像への応用例を示した。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Curvednessに基づく領域を利用した3次元表面メッシュのセグメンテーション
Three-Dimensional Surface Mesh Segmentation Using Curvedness-Based Region Growing Approach

Anupama Jagannathan Eric. L. Miller

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2195-2204 , 12 2007

Keywords: mesh segmentation, shape descriptor, curvedness, graph morphology

新規なパラメータを使わないグラフ・モルフォロジーに基づくセグメンテーションアルゴリズムが提案され、これが3D三角形メッシュを、実態の対象物の物理的部品に対応する分離された部分メッシュに分離する問題に適用するために提案された。ここで提案するCurvednessは並進・回転不変の形状記述子であり、入力されるすべての三角化近似表現(triangulation)の頂点について計算される。Curvednessの値がはずれ値の場合は、繰返し膨張処理や、モルフォロジーフィルタリングによって、複数の、分離され、最大限に連結した部分メッシュに分割される:例えばその結果、各部分メッシュは類似のcurvedness値を持つ頂点集合となり、分離された部分メッシュには顕著に異なるcurvedness値の頂点が含まれることになる。多数の複雑なオブジェクトを用いた三角形分割を使った実験では、本アルゴリズムのロバスト性と効率性が実証され、多くの最新のメッシュセグメンテーションアルゴリズムと良い対比になる。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


双対空間からの未知トポロジーを有する形状のロバストな復元
Robust Recovery of Shapes with Unknown Topology from the Dual Space

Chen Liang Kwan-Yee K. Wong

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2205-2216 , 12 2007

Keywords: Reconstruction, duality principle, tangent envelope, epipolar parameterization, surface extraction

本論文ではシルエットからオブジェクト表面を復元する課題について述べる。他の著者による従来の研究は、双対原理に基づくと、理論的には表面の点は、オブジェクトの接平面に双対として復元される。実際問題として、接平面空間中の接底を同定することは、離散データの集合を与えられたとしても、それほど単純ではない。この論文の新規な主要点は、はっきり定義された局所接底の同定において、エピポーラパラメータ化を導入したことである。これによって、現在の双対空間復元法の応用範囲を、オブジェクトのトポロジーに特別な仮定を設けなくても、かなり複雑な形状にまで拡張できる。この手法の妥当性を、人工的データと実世界のデータの両方に適用し、他の有名な形状復元アルゴリズムと定量的定性的に比較した。実験から、我々の提案手法は、複雑な形状に対しても適当なロバスト性を保ちながら、より正確な推定が可能なことが実証された。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


Sturm/Triggsアルゴリズムの反復拡張性:収束性と非収束性
Iterative Extensions of the Sturm/Triggs Algorithm: Convergence and Nonconvergence

Yue Wang John Oliensis Richard Hartley

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2217-2233 , 12 2007

Keywords: Curve matching, B-Spline model, Curvature scale space, Curve smoothingStructure from motion, projective geometry, factorization, projective factorization, convergence, optimization, Sturm/Triggs algorithm

Sturm/Triggsアルゴリズムの反復拡張性についての最初で完全な理論的収束性解析を示す。 最も単純な拡張のSIESTAにおいては無意味な結果に収束することを示そう。もう一つの拡張も類似の問題点を持っており、“バランスの取れた”反復法での実験では収束に失敗するか、あるいは、不安定化する。これらの問題を回避できるCIESTAアルゴリズムを提案する。これは、たった一つ余分に必要な簡単な計算以外はSIESTAと同一である。弱い仮定を置くことで、CIESTAは反復しながら誤差を減少させることが出来、最終的に定点に近付く。もう一つの仮定を付加することで、収束がユニークであることを証明する。この結論から、CIESTAは、他の処理手法に比べ良い結果が出ることが確認された。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


顔の加齢パターンに基づく自動的年齢推定
Automatic Age Estimation Based on Facial Aging Patterns

Xin Geng Zhi-Hua Zhou, Kate Smith-Miles

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2234-2240 , 12 2007

Keywords: Computer vision, pattern recognition, machine learning, face and gesture recognition, age estimation

ほとんどの顔認識は、同一人物かどうか、表情、性別、などの顔の変化の認識を目標としているが、自動的な年齢認識はほとんどなされてない。他の表情の変化に比べ、加齢による変化はユニークな特徴を持っており、そのため推定が難しくなっている。本論文はAGES (AGing pattErn Subspace)と呼ばれる自動年齢推定法を提案する。基本的には加齢パターンをモデル化する方法であり、表現された部分空間中で年齢順に典型的な顔パターンを並べたものである。未知の顔パターンは、この部分空間に投影され、最小誤差で、この顔が再生成され、年齢パターン中での位置がその顔の年齢となる。実験ではAGESとその変動が、いくつかの既存の年齢推定法(WAS, AAS)と比較され、確立された識別法である(kNN, BP, C4.5, and SVM)とも比較された。さらに、人間による年齢認知能力との比較も行われた。その結果、AGESは他の手法のどれよりも優れていただけでなく、人間とも同等レベルであった。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


画像の立体要素(volumetric)のグラフカットによる多方向ステレオと隠蔽に対してロバストな写真画像との整合性
Multiview Stereo via Volumetric Graph-Cuts and Occlusion Robust Photo-Consistency

George Vogiatzis Carlos Hernandez Esteban Philip H. S. Torr Roberto Cipolla

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2241-2246 , 12 2007

Keywords:

本論文は多方向ステレオ問題のための立体要素(volumetric)導出の定式化を提案するが、これはグラフカットを使ったグローバルな最適化計算による制御の影響を受け易い。我々の手法は3D空間を「オブジェクト」と「空」の2つのラベル付け空間に最適分割するアルゴリズムを捜すのが目的であり、次の2項を有するコスト関数を持っている:(1)2つの領域の間の境界を、画像的に整合性のある場所を通って無理やり設定する項と、(2)オブジェクト領域を膨張させる項とから成る。第1項の隠蔽効果を考慮に入れるため、正規化交差相関に基づく隠蔽にロバストな画像的に整合性のある尺度を導入するが、これには復元されたオブジェクトに関して幾何学的な仮定は必要ない。グローバルに最適な3D分割は、重みつきグラフの最小カット解として得られる。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


空間-時間形状としての動き
Actions as Space-Time Shapes

Lena Gorelick Moshe Blank Eli Shechtman Michal Irani Ronen Basri

IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29 , No. 12, pp. 2247-2253 , 12 2007

Keywords: Action representation, action recognition, space-time analysis, shape analysis, poisson equation

ビデオ画像中の人間の動きは、動いている胴体に繋がった手足が突き出たシルエットのように見える。人の動きを時空空間におけるシルエットによって誘導される3次元の形状と見なそう。最新の手法である2D形状を解析し、これを一般化して3次元の空時の動き形状に適用する。この方法は、局所的時空的に顕著な特徴量を抽出するために、ポアソン方程式の解の特徴を利用している。これらの特徴量が動き認識や、検出・識別に有用であることを示す。この手法は高速で、ビデオの整列は不要で、背景が既知の多くの用途に応用できる。さらに、本手法が部分的隠蔽や、非剛体変形や、視点や大きさの大きな変化にも、動きの不規則な場合にも、ビデオ品質が低い場合にもロバストであることを実証する。

Ej

Copyright (c) 2007 Institute of Electrical and Electronics Engineers, Inc. All rights reserved.


[インデックス] [前の年] [次の年]


リコー
AbstractClub
ご意見ご質問は www-abs@src.ricoh.co.jp までお寄せ下さい。

製品に関する
お問合わせ窓口
アンケート
検  索


Copyright (C) 2001 RICOH Co.,Ltd. All rights reserved.