査読者1

[メタ] 総合的な採録理由

360度カメラを用いて使用者周辺の状況を取得し、同時に視線方向から注視対象となる物体を検出するという仕組みについて、機構のシンプルさが評価された。現状ではリモコンシステムの全体像が不明瞭であり、今後さらにシステムの完成度を高めての評価が待たれる。

[メタ] 査読時のレビューサマリ

査読者間で一致して指摘されているのが、リモコンシステムとして具体的にどのようなインタラクションが行われることを想定しているのかどうかが明記されておらず、結果として、評価実験の結果からその有用性をどう判断すればよいのかが明確になっていない、という問題がある。

また、実験結果の分析において、角度ではなく距離によって判断することの妥当性が主張されていないこと、また上記と関係するが最終的にその精度が実際の応用場面でどれほど役に立つと考えられるのか、の議論が不足している。

結論として、上記2点について、関連する査読コメントを参照した上で、記述を改善することを条件にショート採録と判断した。すなわち、

1) 提案リモコンシステムを使用する上での想定されるインタラクション過程を具体的に説明した上で、視線推定の精度がどの程度必要なのかを説明すること
2) 実験1の結果について、誤差を角度ではなく距離で説明していることについて理由を付すか、角度を示した上でそれに基いて考察すること

なお、上記2点についても査読者から指摘されている点があるので、これを改善されたい。

[メタ] その他コメント

特になし

総合点

5: ショート採録が妥当

確信度

3: 自身の専門分野とマッチしている

採否理由

先に、論文で説明されている実験内容と結果については、じゅうぶん採録の価値があると判断したことを述べておく。また、ハンドヘルドリモコンによって操作者と周辺環境とを同時に認知し、さらに手指による操作を加える入力デバイスというアイデアに興味があり、将来的にどのような応用が可能かについて、おおいに議論の価値があると判断したい。

しかしながら、論文で報告されているのは360画像からの視線認識および周辺物体の分類、そして注視点にある物体の検出であり、タイトルにある「ユニバーサルリモコン」についての説明はほとんどなされていない。論文の内容はあくまでも「ユニバーサルリモコンに必要となる注視物体検出技術」であり、リモートコントロールの具体的なインタラクション過程についてまったく議論されていない。

たとえば1章で、「環境内の機器をまとめて操作する」とあるが、この操作イメージがいまひとつ曖昧であり、狙っているインタラクションが不明確である。「まとめて操作する」とは、複数の家電を同時に操作する、ということではなさそうだが、では具体的にどのような操作を仮定しているのか。一つ一つの家電を独立に操作するのか、複数家電を連携させる操作を想定しているのか。他にも、テレビ操作を想定しているらしき図が論文中にあるが、どの程度の複雑な操作をリモコン本体で実現する予定なのか。それらの設定が論文中から欠けているため、「リモコン」を提案する論文としては要点が不足している。

それと関係するのが、リモコンの把持姿勢についての議論である。実際の使用場面を想像するに、リモコン本体に設けられたボタン類の操作があると思われるが、その際、使いやすさを考えれば手を内捻し親指が天井方向を向くように持つことになるだろうし、そうなるとおそらくはリモコン頭部を対象機器に向けるような位置で提案デバイスを把持することになるだろう。その際の認識性能を評価対象に加えるべきではなかったか。これまた想像するに、そうなるとナイーブな実装の場合、360度カメラの天頂付近に対象家電が位置することになり、認識に不利に働きかねない(重ねておそらく、カメラの取り付け角度を工夫することでこの不利は覆すことができるだろう)。

以上、査読者が想像で補って提案手法の利害得失を推測したが、こうした点についてより精密に記した上で、今回の調査ではあくまでも注視物体検出技術の精度評価に特化した、というストーリーで論文を整理していただくと、より参考になるだろう。

この研究をよくするためのコメント


査読者2

総合点

5: ショート採録が妥当

確信度

3: 自身の専門分野とマッチしている

採否理由

本研究の全方位カメラと視線方向をリモコンとして利用するという提案には新規性があり、WISSで登壇発表に適していると考える。本提案には有用性が認められているが、現在の評価からアプリ―ションの実現が可能かが判断できなかったため、ショート採録妥当であると判断する。全体性を通して可読性が高いが、一部用語の使い方に関しては修正が可能である(顔認識など)。

この研究をよくするためのコメント

本研究はシステムによる視線推定から、リモコン入力を行うというものであるが、現在のシステムがそれを可能とするか判断できない点があった。

1. 横縦方向の誤差がそれぞれ16.9度, 11.6度という誤差が、アプリケーションを実現するのに十分であるかという議論がない

2. ユーザ認識により適したコンテンツを表示するとあるが、ボタン一つによる入力で十分であるという前提が妥当かは疑問である

3. システムでは視線推定を利用しているが、リモコンというアプリケーションであれば顔方向でも妥当かどうかの検討があったのか

4. 第1実験では視線誤差に距離を使っているが、なぜ評価指標が角度ではなく距離なのか妥当性が疑問である


査読者3

総合点

4: ショート採録に反対しない

確信度

2: やや専門からは外れる

採否理由

本研究はユーザの注視方向を元に操作する機器を選択するリモコンシステムを実現するため、360度カメラを用いてユーザの注視方向を推定するシステムを実装しその精度評価を行っている。提案システムは、注視方向推定精度を向上させるため、既存システムで用いられた顔方向ではなく視線方向を用いて注視方向の推定を行うことを特徴とする。推定精度の評価実験の結果より、視線方向を用いる提案手法は、顔方向を用いる既存システムよりも精度が低下することが示され、その原因と精度向上のための改善指針について考察が行われている。


<提案されている内容の新規性(先行研究との差分が十分にあるか)>
関連研究として挙げられているWorldGazeと基本コンセプトは類似しているものの、360度カメラを利用する点、顔方向ではなく視線方向を用いる点は技術的な差分があると考えられる。
一方で、提案システム全体のコンセプトについては、1章にて「最終的な目標は,環境中のカメラなどのセンサを用いず,リモコンという一台のデバイスのみで環境中の機器全てを操作することである.」と述べられているが、このような要件自体は既存のスマートスピーカとスマートリモコンを用いることで実現可能である。(このような構成では操作のために音声で対象機器を指定する必要があるためそれを省略する等の要件に言及されていれば提案システムのコンセプト自体を否定するものではない)

<有用性(実際に役に立つか)、正確性(技術的に正しいか)>
既存システムであるWorldGazeと比較して、顔方向ではなく視線方向を用いることで注視方向の認識精度を高めることを目的としているが、評価実験の結果より精度は低下している。平滑化やキャリブレーション等の対策指針についても言及されているが、現時点では提案手法の有用性が十分に示されていないと判断する。
なお、6章「1 箇所を注視していても推定される注視点には大きなばらつきがある」という点については、使用した360度カメラの解像度の限界である可能性があり、その場合平滑化だけでは対策が困難であると考えられる。また実験では眼鏡着用者が実験参加者に含まれていないが、眼鏡着用者では視線推定精度がさらに低下する可能性がある。また著者らも言及している通り視線を用いる場合まばたきやサッカードの影響を受ける。上記より、「精度を向上させる」という目的に対して、カメラ画像ベースの視線検出を用いる手法が適切であるかは疑問が残る。

<論文自体の記述の質(分かりやすく明確に書かれているか)>
論文の記述内容に問題があり、内容が間違っていたり理解が困難な部分がある。

・1章:提案システムはユーザの注視方向と対象物の方向を認識した上で、実際に機器に信号を送信するスマートリモコン等と併用する必要があると考えられるが、その点についての言及がなくシステムの全体像が把握できない。

・2章:「WorldGaze[4] ではスマートフォンのリアカメラでユーザの顔の向きを取得し,フロントカメラに映っている物のどれを注視しているかを認識している.」WorldGazeでは、顔認識にフロントカメラ、環境(物体)認識にリアカメラが用いられている。

・5.1節:
-「WorldGaze[4]との精度比較を行う」という記述があるが、どのように比較したかが不明瞭である。WorldGaze論文中の評価結果と比較しているように見えるが、その場合それが分かるように記載するべきである。

-「図 9 に注視点推定の誤差を示す. Distance は全実験参加者・全マーカの誤差の平均値と標準偏差をマーカ距離ごとに示している. Horizontalと Verticalは,全実験参加者・全マーカ距離における誤差の中央値をそれぞれマーカの列と行ごとにまとめたものである.」Distance, Horizontal, Vertical ともに同じ絶対誤差を示しているのに、平均値と中央値が混在しているのは恣意的に見える。またDistanceのグラフ中に標準偏差が示されていない。
- このような実験設定では、誤差は距離ではなく角度で示すべきであると考えられる。例えば1mで10度の誤差であれば約18cm程度であるが、この場合2mでは36cm、4mでは72cmというように見かけ上の誤差が増加していく。そのため図9 Distanceのグラフでは距離に応じて誤差が増大しているように見えるが、角度に換算すれば1mが最も誤差が大きくなると考えられる(同じ角度誤差であれば4mでの誤差距離は1mの4倍になるが、図9より4mの誤差は1mの3倍弱。そのため角度誤差は4mの方が小さい)。

・5.2節:
-「3×5 の格子点のどこかにランダムに移動し,ユーザは再度マーカを注視しながらキー入力を行う.これを 100 回繰り返してもらう」3×5=15点について100回試行を行う場合、出現する刺激はどのように決定されるのか?
-「4m 離れた距離で中央のマーカーが視角 1 度に収まるよう」実験2では距離を2mとしているが、なぜマーカサイズは4mを基準としているのか?
- 実験参加者はカメラから何cmの位置にいるのかの説明がない
- 表2 上段の数字(1~12)が何を表すのか説明がない



上記の内容を総合的に評価し、「4: ショート採録に反対しない」と判断する。

この研究をよくするためのコメント

採否理由中にも書きましたが、提案システム全体のコンセプトについて、システムが満たすべき要件を整理する必要があるように感じました。


>1章にて「最終的な目標は,環境中のカメラなどのセンサを用いず,リモコンという一台のデバイスのみで環境中の機器全てを操作することである.」と述べられてつが、このような要件自体は既存のスマートスピーカとスマートリモコンを用いることで実現可能である。(このような構成では操作のために音声で対象機器を指定する必要があるためそれを省略する等の要件に言及されていれば提案システムのコンセプト自体を否定するものではない)