査読者1

(Primary)レビューサマリ

本論文のスコアは 4, 3, 4, 4 (平均3.75)となっており、「3: 委員会で審議(ボーダーライン~採録より)」と判定しました。

本論文は、VR環境でのオブジェクトの移動を目的として、頭部や視線による操作と発声による操作を組み合わせた手法を提案しています。この頭部・視線操作と発声操作の組み合わせは新規であり、詳細な比較実験の結果に基づいて、先行手法(発声のみ)よりも優れた選択手法であることを示しています。

一方で、提案手法が使用できる状況が限定的であり、具体的なVRアプリでの応用例が示されていない点に問題があります。人工的な実験タスクだけでなく、「ハンズフリーなオブジェクトの移動手法」が求められる場面を具体的に示しながら手法の有用性について説明する必要があります。採録の条件ではありませんが、具体的なVRアプリでの使用例についての加筆、あるいは発表時のデモを強く推奨いたします。

論文はよく書かれていますが、提案手法の動作について理解が困難な箇所があります(移動面、xyz軸に関する説明など)。また、原稿中では十分に説明されていない手法ごとの特徴もあるようです。これらは説明の文章を整えたり、図を適切に挿入したりすることで改善されると思いますので、修正されることを推奨いたします。

(Primary)採録時コメント

本論文では,VR環境でのオブジェクトの移動を目的として,頭部や視線による操作と発声による操作を組み合わせた手法を提案している.頭部・視線操作と発声操作の組み合わせは新規であり,詳細な比較実験の結果に基づいて,先行手法(発声のみ)よりも優れた選択手法であることを示した.一方で,この手法が具体的なVRアプリケーションで,どのように使用されるかについて,十分に議論されていないという指摘があった.委員による議論の結果,採録の条件ではないものの,具体的な使用例を示しながら手法の有用性を説明することが強く推奨された.以上の理由から,採録と判断された.

(Primary)論文誌として必要な改善点

図などを用いた提案手法に関する詳細な説明の追記が必要。また、提案手法が有用である具体的なVRアプリケーションについての議論が求められる。

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

本研究では、VR環境でのオブジェクトの移動を目的として、頭部や視線による操作と発声による操作を組み合わせた手法を提案しています。ユーザは操作対象を選択したのち、頭部方向でオブジェクトの座標系を制御し、「あー」のような非言語的な発声、あるいは「奥に100mm」ようなの移動距離の発声によって、対象物を移動させることができます。最適な設計を探るための比較実験が実施されており、頭部操作と非言語的発声操作の組み合わせの性能がもっとも良かったと報告されています。

先行研究で提案された手法をうまく組み合わせた新規なアイディアであり、ハンズフリーで三次元空間内の移動操作を行うための興味深い手法であると思います。しかし、設計された手法の説明が適切に行われていない箇所があり、また実験に関する説明にも修正を要する箇所があります。よって「4: どちらかと言えば採録」と判断します。

・頭部操作と視線操作の説明
頭部操作と視線操作には、原稿中に十分に説明されていない性質があり、これが各手法の結果に影響を与えている可能性があります。

3.2.2によれば、操作対象のオブジェクトは操作開始時にユーザの正面に作られる平面(移動面)と頭部方向あるいは視線方向のベクトルとの交点に移動します。ここで、「頭部操作では、発声操作のための座標系がヨー軸周りに回転し、視線操作の場合は回転しない」という性質があるようです(動画で確認)。頭部操作の場合、頭部をターゲット(移動先)に向ければオブジェクトの座標系もターゲットの方向となりますので、発声操作で位置を調整可能です。一方で、視線操作の場合は、ターゲットよりもやや手前(あるいは奥)を見て、オブジェクト周囲の目盛りが重なる位置に移動させることになるはずです。この操作には、目盛りを確認するために視線を動かすとオブジェクトが動いてしまう、という欠点があるように思われます。SUSとNASA-TLXの結果は、これによるのではないかと推測します(EC:視線+移動距離発声のスコアがやや悪い)。オブジェクトの位置関係や視野によると思いますが、設計の時点で考慮できる性質かと思われます。

・手法の使用できる状況が限定的
現在の実装では、提案手法が有用である場面が非常に限定的です。説明を加筆するとともに、具体的なVR空間内での応用例などを示して手法の必要性を明確にする必要があります。

頭部・視線操作は、移動面に対する入射角が大きくなればなるほど微細な操作が困難になるため、ユーザから左右に離れた位置にオブジェクトを動かす操作には向いていません。また、ユーザの上方や後方など、ターゲットとオブジェクトが視界内に収まらない位置に移動させることも困難です。オブジェクトが遠い場合は目盛りの視認性、近い場合はターゲットとのオクルージョンも懸念されます。たとえば、ターゲットが視界の中央でオブジェクトの後方にある場合は目盛りを確認することができないかと思われます。動画を見る限り、一度発声操作が始まると頭部・視線操作は無効化されるようですが、再選択や選択解除などは行えるのでしょうか。

・「奥・手前」以外の発声操作の利用
実験で用いた環境では、「奥・手前」以外の発声操作は不要、あるいは直感に反する操作になると思います。発声操作で使用された向きと回数、移動距離の具体的な数値などを示すべきです。

提案手法のベストプラクティスは「目盛りとターゲットを重ねてから発声操作を開始する」ことだと思います。オブジェクトとターゲットの位置関係によりますが、視線操作の場合は、座標系が回転しないことから、そもそも「奥・手前」以外の操作は不要のはずです。一方で、頭部操作の場合、たとえば、発声操作で「右」に動かすためには、一度頭部を「左」方向に動かして座標系を逆向きに回転させる必要があるように思えます。これには、移動距離が増すだけでなく、目盛りが視認しづらくなるという欠点もあります。そのような操作が実験中に観測されたのかが興味深いです。

改善コメント

・実験の説明不備
実験は非常によくまとめられていますが、以下のような点に注意するとより厳密な内容になるかと思われます。
‐オブジェクトの大きさと目盛りの視覚的フィードバックについて説明してください。
‐タスク成功の条件を明確にしてください。「球体ターゲットまで移動させる」とありますが、オブジェクトがターゲットに触れていれば成功でしょうか。到達したと判定するための閾値があるのでしょうか。
‐選択を行った時点でオブジェクトとターゲットが移動平面に乗っている状態(発声操作が不要)はなかったでしょうか。
‐ドロッピング角度が計測されるタイミング、特に視線や発声操作のみの場合の角度の計測方法について説明してください。
‐(計測タイミングによりますが)ドロッピング角度を評価指標に用いた理由がわかりませんでした。頭部操作の性質上、この条件で角度が小さくなることは自明であるように思います。また、角度が大きい場合は、ターゲットのほうを向いておらずとも操作できる強みと解釈できないでしょうか。
‐実験中のタスク失敗の有無について記述してください。

・その他の不明瞭な点および誤植
‐4.2や6.1でカラムからはみ出している文章があります。
‐4.3で選択対象のラベル付けの説明がわかりませんでした。半透明になったり、数字順に切り替わたっりするようですが、具体的にどのような状態になるのでしょうか。
‐4.3.1の音量a_min の下付きに誤植
‐動画の1:27~のキャプションは「頭部操作+移動距離発声操作」ではないでしょうか。

・研究をよりよくするためのコメント
障害物や背景などがある環境での性能に興味があります。特に、視線操作に対して影響があるのではないかと思いました。

提案手法はユーザの正面に平面を作っていますが、ユーザを囲む円柱の側面にすることでターゲットの位置に依らず発声操作と連携させることができるように思いました(球体でも良さそうですが、オクルージョンの問題が生じるかもしれません)。また、発声操作で移動面や座標系を動かしてみる方法も面白いのではないかと思います。

査読者2

総合点 (1: 強く不採録~6: 強く採録)

3

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

1

採否理由

本研究は、実験も含めた研究の質が高いことから判断に迷いましたが、下記の有用性に対する疑問が拭えず、「3: どちらかと言えば不採録」と判断しました。

新規性: 本論文は、HMD装着時のVR空間において、仮想オブジェクトを目的の位置に音声も用いてハンズフリーで移動する手法を比較評価しています。比較評価対象は、「連続的な非言語的発声による操作」、「離散的な移動距離の発声による操作」、「頭部による操作」、「視線による操作」の組み合わせで、それぞれの操作には新規性は主張されていません。本論文では、頭部方向と非言語的発声を用いたオブジェクト操作手法を提案し、「仮想空間における非言語的発声操作および移動距離発声操作の比較をしている研究が存在しない」「発声操作において頭部操作と視線操作のどちらが適しているかは不明である」という立場から新規性を主張していて、それは妥当だと判断しました。

有用性: 本論文は、頭部方向と非言語的発声を用いたオブジェクト操作手法によって、ハンズフリーでより高速にオブジェクト移動を達成することを目的としていますが、VR空間で、そうしたハンズフリーの制約が重要なのはどういう場面で、それが達成されることがどれぐらい有用なのかがわかりにくかったです。「既存研究においてハンズフリーな発声操作手法はほとんど検討されていない」と述べられていますが、それはそうした手法の需要が乏しいためだとも考えられます。実験のタスクの設定も、どうしてそのタスクが重要なのかがわからず人工的に感じられ、具体的にどういうVRアプリのどういう場面でそのような操作が必要になるのかがわかりませんでした。そのため、今回達成された時間短縮がどれぐらい有用で、最終的にどれぐらい短縮されれば意義があるのかがわからず、有用性を高く評価することができませんでした。

正確性: 実験の記述に2ページを割いて詳細な比較実験結果を報告しており、発声のみの操作よりも視線操作あるいは頭部操作と組み合わせた方がよいこと、非言語的発声と移動距離発声は使い分けが重要なこと、頭部操作の方が視線操作よりも発声操作と組み合わせるのに適切なことなどが結論づけられています。特に誤りは見当たらず、正確性は高いと判断しました。

記述の質: 論文全体の記述の質は極めて高く、良く書けています。

改善コメント

HMD装着時のVR空間において、仮想オブジェクトを目的の位置に音声も用いてハンズフリーで移動する操作が、具体的にどのようなVRアプリのどういう場面で必要になるのかが明確に議論されていると、より良い論文になると思いました。VR空間で音声認識を使いたい場面は想像できても、頭部方向も組み合わせて手を使わずに物体を移動しなければならない場面を想像できませんでした。これまではそうした操作の需要がなかったのだとしても、将来、提案手法の需要がどう高まっていくのかがわかると、本論文をより高く評価できます。

査読者3

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

■概要
VRの3D空間内でオブジェクトをハンズフリーで移動させる操作方法として、頭部方向と発声による操作を組み合わせて実行する提案である。
方向を決める際に、視線操作を使うか、あるいは、頭部方向を使うか、そして、残りの軸の移動の発声操作のバリエーションで、複数のバリエーションの入力操作を試したことが特徴である。

■新規性
VR空間内でのハンズフリー操作において、視線や頭部方向でのポインティングは先行例が多くあるが、2軸までの入力しかできないため、3D空間内のオブジェクトの移動操作には1軸足りなかった。これを発声操作と組み合わせることで補ったことが新規性である。

■有用性
実験により、4パターンの提案手法は、いずれも発声のみで移動させる先行研究よりも高速であることを示しているのは、有用であると言える。
しかし、コントローラもハンドジェスチャーも使えないシチュエーションで、ポインティングではなくオブジェクト移動をしたいというユースケースが限定的であることは否めない。

■正確性・記述の質
大きな問題はないと思われる。

■WISSで議論する価値
LLMの発展により、音声での自然言語入力のインターフェイスの可能性が大きく広がっている中で、こうした多要素を組み合わせたインターフェイスの議論が盛り上がることは好ましい。

改善コメント

ユースケースについて、本提案が噛み合うものが示されれば、有用性に関する説得力が増すと思われる。
また、既存の非言語的発声を用いた操作には、母音やピッチなどで操作を切り替える手法もあるが、そうした習熟することで時間を短縮できる手法と組み合わせることで、コントローラ操作と遜色ない効率を達成できるかもチャレンジとして興味深い。

査読者4

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

発声による3Dマニピュレーション手法はすでに検討例がありますが,本研究は,頭部方向と組み合わせた点に新規性があると思いました.論文としても,概ね明確に書かれており読みやすかったです.実験結果の解析やその報告についても大きな問題は見受けられませんでした.

ただ,提案手法の動作については,論文の説明だけでは不明瞭に感じました.具体的には,3章の説明にある「移動面」がどれのことを指すのか明確ではなく,また,xyzの軸は,それぞれどの方向を指すかは自明ではありません.これらを明確に示す図を論文内に追加していただきたいです.

改善コメント

本実験で用いられたタスクのような,バーチャル環境内に基準となるようなオブジェクトが(ターゲット以外に)何もない場合には,提案手法のようなユーザの頭部方向を基準とした操作が直感的であると思いますが,多くの場面ではバーチャル環境内に建物やディストラクタなど何らかの目印などが配置されており,その場合には従来のワールド座標系による操作のほうが良いパフォーマンスを示す可能性があると思います.このため,これらの使い分けについて今後調査する,またはこの論文内に議論を追加すると良いと思いました.

また,筆者も考察しているように,非言語的発声操作と移動距離発声操作の2つは,使い分けることが良さそうと考えられますが,実験では,これらの2手法の間に明確なパフォーマンスの差は見られませんでした.今後はそれぞれの手法の有効範囲を明らかにするような調査があると良いと思いました.加えて,本手法は声を出すという性質上,社会的受容性の評価(例:人前でこの手法を使って恥ずかしいと感じるかどうか)もあると良いと思いました.