セミナーレポート

ロボットの目、その進化

第76回ロボット工学セミナーを取材

2013/6/6

 「ロボットの目」がよく見えるようにするにはどんなことが必要なのか。2013年5月16日、東京大学で行われたロボット工学セミナーでは、2次元、3次元画像の認識技術について講演が行われた。

画像認識を解説する中京大学の橋本学氏
画像認識を解説する中京大学の橋本学氏

「ウォーリー」を探す物体検出


 人工衛星からの画像マッチングや、マザーボードなどの組み立て時に必要な部品の配置決め…。目的のものを正確に素早く判別する技術は、工業用ロボットにとって重要である。この研究に携わっている中京大学の橋本学氏は、2次元と3次元、それぞれにおいて高速に物体を検出するために取り組んでいる研究内容を紹介した。


 他の部品がたくさん写っている画像の中から特定の部品Aを見分ける、言わば「ウォーリー」をコンピュータが自動的に探す作業である2次元画像の物体検出。現在、2次元の画像で物体検出に採用されているのは「テンプレートマッチング」という方法だ。部品Aのテンプレートデータをもとに、画像の中から似ている度合いを計算して探し出すもの。この計算方法は、

・正規化相互相関
・相互相関係数
・相互相関係数の計算量削減版
・差の2乗和
・差の絶対値和

があるという。橋本氏によると、処理時間が短いのは「相互相関係数の計算量削減版」で、一番時間のかかる「相互相関係数」の4倍ほど速い処理ができるという。


 橋本氏はこの「テンプレートマッチング」という手法の中でも、自身が取り組んでいる「ロバスト化」と「高速化」について触れた。


 部品を探すための元画像は、明るさが違うもの、部分的に隠れているもの、回転しているものなど、探しにくいものも出てくる。画像認識での「ロバスト化」は、テンプレート画像と元画像それぞれから特徴を算出して抽象化し、ある程度画像が変化していても正しく認識できるようにすることだ。ロバスト化の方法は、水平方向の明るさの変化の符号に従って画像を2値化(白と黒のみで表現する)する「増分符号相関」、テンプレートと元画像をそれぞれ分割し、勾配の方向を求めて一致度を比べる「Dominant Orientation Templates(DOT)」などがある。


 処理の「高速化」は、テンプレートの画像の全画素の中から、使う画素を厳選する方法が現在の主流。橋本氏は、約2万画素あるテンプレート画像から50画素を抽出する方法を提案。テンプレート画像から50画素を選び、用意したポジティブサンプル(正しいサンプル)とネガティブサンプル(間違いサンプル)と比べることでその画素の「良さ」を評価。この作業を繰り返すことによって,最適な50画素を自動選別するものだ。こうすれば、テンプレート画像の400分の1のデータで済む。実験の結果、テンプレート画像の画素全てを使って判別する方法との誤差は1%で、処理スピードは400倍の差をつけたという。


 3次元の物体を認識する技術も、ロボットの目にとっては重要である。橋本氏の研究では、3次元物体の中から、独自性の高い部分(他の部分にはないところ)を自動的にピックアップして認識する方法を提案している。コンピュータが処理するデータが少なくて済むので、処理時間が大幅に短くなる半面、独自性の高い部分が隠れてしまうことには注意が必要とのことだ。

車載カメラからSIFTが道路標識を認識する様子   SIFTを解説する中部大学の藤吉弘亘氏
車載カメラからSIFTが道路標識を認識する様子   SIFTを解説する中部大学の藤吉弘亘氏

「顔認識」と「顔検出」は別もの


 「物体認識」という分野についての講演も行われた。中部大学の藤吉弘亘氏は、まず「実世界の画像に対して、計算機がその中に含まれる物体を一般的な名称で認識することを『一般物体認識』と呼ぶ」と定義した。車から撮影した画像ならば、歩行者がどこにいるのか、道路標識があるならどんな標識なのか…。こういったことを把握するものだ。さらに細かく分ければ、歩行者がどこにいるのかは「物体検出」、個々の標識を区別することは「特定物体認識」と呼ばれる。


 写っているものの意味をコンピュータが判別することを「(一般)物体認識」と呼ぶ。デジタルカメラの機能の紹介で「顔認識」と書いているものがあるが、正確に言うと、顔の位置を特定することを「顔検出」と呼び、顔を検出して「この顔は太郎さん」などと個人識別することを顔認識と呼ぶ。


 物体認識について、藤吉氏は「SIFT」と呼ばれる技術で車載カメラに写った標識を判別する動画を紹介。わずか数秒しか写らず、なおかつ大きさも変わる標識を的確に判別していた。


 SIFTは画像の回転や大きさ・明るさの変化に強く、2000年以降かなり使われた。しかし、複数の平滑化画像の使用で計算コストが膨大になっていた。現在は、画像の中からピンポイントで角(コーナー)を検出して処理速度を高めている「FAST」などが認識技術で利用されているという。


 実世界の風景から必要なものを切り出す。人間の目は瞬時に行えるが、コンピュータがやるとなると、まずはサンプルの収集に莫大な労力が必要だ。加えて、画像に写ってから判断をするまでの計算量を減らさなければロボットのスムーズな活用は見込めない。


 デジカメの顔検出や顔認識がサクサク動いて日常生活がより利便性を増す裏には、研究者による職人芸のような解析方法の研究が日々行われているのである。

(中西 啓)

【セミナーデータ】

イベント名
:第76回ロボット工学セミナー
主催   
:日本ロボット学会
開催日  
:2013年5月16日
開催場所 
:東京大学本郷キャンパス(東京都文京区)

【関連カテゴリ】

トレンド