査読者1

[メタ] 総合的な採録理由

本研究では、360度カメラで撮影した画像から公共施設の矢印情報を抽出し、目的地の移動を支援する手法を考案している。問題設定はシンプルであるが面白く、査読者の一定の評価を得ました。一方で，システムの有用性や妥当性については議論の余地が残されているため、今後の新規性の強化に期待したい。WISSでは、360度カメラを用いたガイド方法が実環境においてどこまで活用できるのか等について議論したい。

[メタ] 査読時のレビューサマリ

本論文は3名の査読者に査読されました。360度カメラを用いた目的地への移動を支援するアイディア自体の新規性について、いずれの査読者も高く評価しています。しかし、技術内容やユーザテストからは、本来の目的となる「目的地への誘導」に対して妥当な方法であるとは十分に言えないと感じています。今回は、実装内容や実験内容に対する課題が残されていますが、提案の着眼点を評価した結果になっています。

[メタ] その他コメント

- 著者の過去の論文を見ているときに気になったことですが、過去の投稿の図の構成（色やフォントのルール）が常に同じものを使っているように思います。同様の色をつかうと、査読者に「〇〇が作った図だな」と身バレするので、投稿のたびに図の構成を微妙に変更したほうが良いと思います。wissの投稿において問題はありませんが、今後のdouble blindの論文投稿（CHIなど）を行う際には、ぜひ検討していただければと思います。

総合点

6: ショート採録を強く推す

確信度

3: 自身の専門分野とマッチしている

採否理由

本研究では、360度カメラで撮影した画像から公共施設の矢印情報を抽出し、目的地の移動を支援する手法を考案している。記述は比較的わかりやすく、システムとしての一定の新規性はあるとは思います。その一方、技術的には既存手法の組み合わせにすぎないため、技術的な新規性は少ない印象です。また、技術自体の違和感を感じましたので、これらについて主に記載させていただきます。

1.手法について
ジャイロセンサや360度カメラなど複数のセンサ等を組み合わせていますが、この組み合わせにどの程度こだわるべきなのか疑問があります。例えば、通常のスマートフォンで撮影した複数の画像をSLAMで合成する、LiDAR等を用いることで3次元的な情報を扱うこともできます。また、公共施設のように「矢印看板を設置する必要のある大事な目的地」の場合、場所ごとに異なるマーカーを事前に設置 + マーカーの位置を指示する形することで、一番の目的は解決できると思います。既存研究としては、画像の話ばかりでもっと一般的な話を含めるべきだと思いました。

2.対象となる場面について。
空港や駅のような公共施設内を対象としていますが、本システムが「実際のシーンでどこまで適用できるのか」「実験内容」に幾つかの疑問があります。

例えば、
a) 今回の場合は、一枚の画像で「文字」や「矢印」が描かれる看板が検出でき、遮蔽領域がない実験室のようなシンプルな場面に限られると思います。その主な理由としては、一枚の全周囲画像からキューブマップ画像を作成していることが挙げられます。キューブマップは奥行情報が失われたものとなってしまう点や、実際の公共施設に存在する「柱」や「スタッフの受付部」による遮蔽領域を考慮できないことが予想されます。また、遠すぎる看板は画像解析で検出できない、照明条件によって文字が読めなくなる等の問題も挙げられます。今回の話は、「一枚の画像撮影」であることを新規性にしていますが、それで良いのか疑問を感じます。

b) 今回の目標「目的地に行くタスク」は、「最初の一歩目の向き（点字）を（局所的に）決めること」に限られています。しかし、実際の公共施設で目的地に行くのは「右に曲がって真っすぐ、突き当りを左に曲がる」といった複雑なルートをたどる必要があるものの、a)で示したように現状の手法では、このようなシーンへの適用は困難であることが予想できます。

c) これを解決するシンプルな方法としては、「一枚の画像はあくまでも局所的な解析として使う」+「複数枚の撮影画像を併用することで大域的な情報を構築する」ことが挙げられます。但し、この場合は「撮影するたびに8秒程度要してしまい、UX的にはまだまだ不十分である」「SLAM等と同様、loop closure問題を解決する必要がある」といった、課題をクリアする必要もあります。複数の画像を利用する場合は、task completion timeも大きく異なるので、ひとえに360度カメラを使うこと = task completion timeで優位性があるとは言えない可能性もありますが。。。

d) これを踏まえると、今回の被験者実験にも違和感を感じます。実験方法が「（奥行等を考慮しなくてよい）一度の撮影で撮影できてしまうシーン」かつ「局所的な向き（点字ブロック）を選ぶシンプルすぎるタスク」にすることで、「360度カメラが必ず勝ってしまう実験方法」を意図的に選択したようにも感じました。少なくても実際の実験環境が、公共の環境とどの程度異なるのか、どの程度近いのかを記載してほしいです。

この研究をよくするためのコメント

- 画像解析を用いる方法のメリットは、「1.手法について」に記載するような事前にマーカーを貼ることのできない状況（例：人の行列や通行人など、動的に変わるもの）に人の行列など、動的に変わる複雑な状況にも対応できる点にあると思います。今回の著者の、過去の論文がメリットを示していると思われます。

例：
-Kayukawa et al. Smartphone-Based Assistance for Blind People to Stand in Lines. CHI EA 2020.

今後は、処理速度やシステム設計の細かい箇所の大幅な改善を期待しています。

- 今回のような視覚障碍者を対象とする実験の場合、倫理審査の記述があったほうが良いと思います（現状は、Covid-19を配慮しているとの記述のみ）。WISSのCFP欄には「研究機関内外の情報委員会や倫理委員会などにおける承認手続きが必要となる調査・研究・実験などの場合は，手続きの状況を具体的に記述してください」と記載があり、倫理審査を通したものの場合は、情報（例：番号や状況について）を記載をしてください。

査読者2

総合点

7: ロング採録に反対しない

確信度

2: やや専門からは外れる

採否理由

本研究は視覚障碍者による目的地への方向決定を支援するスマートフォンを用いたシステムを提案したものである。提案システムでは、360度カメラを用いて周囲の誘導サインから矢印とそれに紐づくテキスト情報を抽出し、音声および振動の提示により目的方向への誘導を行う手法を提案している。また実際に視覚障碍者を対象に比較実験を実施し、提案手法が方向を判断する上で有効であることを示している、

・提案されている内容の新規性（先行研究との差分が十分にあるか）
画像認識技術を用いて環境中のテキスト情報や物体名を読み上げる手法は存在するが、矢印とテキストが組み合わさった標識から目的地方向を識別し案内する点は新規性があると考えられる。また環境中から画像認識を行う際に360度画像を用いることで一度に全周囲の情報を取得することができる点も新規性があると考えられる。また360度画像中の矢印と標識のテキスト情報を認識し紐づけるための実装にも技術的な工夫が見られる。

・有用性（実際に役に立つか）、正確性（技術的に正しいか）
実際に視覚障碍者を対象に、提案手法と比較条件（360度ではないカメラを用いて同様の標識認識・案内を行う）の比較実験を実施し、タスク完了時間やSUSスコアの観点で提案手法の有効性を示している。ただし実験環境は外的要因を含まない実験室環境であったことから、実環境での有効性については今後さらなる調査が必要である。（その点については論文中でも適切に論じられており、採否の判断に影響を与えるものではない）

・論文自体の記述の質（分かりやすく明確に書かれているか）、
文章の内容、図表、体裁等、分かりやすく記述されており、論旨が明瞭である。

上記の理由より、本論文は「7．ロング採録に反対しない」と判断する。

この研究をよくするためのコメント

NaviLensやWayfindrのように環境側への介入（QRコード・BLEビーコンの設置および対応するコンテンツの準備等）を行う手法と比較して、すでに存在する健常者向けの標識を利用することで導入にかかるコストが不要という点は大きなアドバンテージであると感じました。
https://www.navilens.com/
https://www.wayfindr.net/

ただし外的要因の存在する実環境において提案手法が十分に機能するかどうかは現時点では明らかではないため、今後の評価実施を楽しみにしています。

査読者3

総合点

5: ショート採録が妥当

確信度

2: やや専門からは外れる

採否理由

360度カメラを使用し、矢印と目的地を関連付けてナビゲーションをしてくれるシステムを提案しています。実現性は高く実用性も高くなるシステムだと思いました。
一方で、現在の所システムの処理時間が8秒近くと非常に長く、リアルタイムに使用するには難のある状況であることは否めないかと思います。評価実験ではこの処理時間を省いた数値で評価していますが、単純に処理時間を引き算すればよいとも限らないと思われます。また認識精度が100%近いわけではないため、誤認識がどのくらい実験結果に影響を与えたか不明です。

この研究をよくするためのコメント

3章、4章の説明で、カメラの姿勢とユーザの姿勢に関して、「ユーザが向きを変更する間、システムはスマートフォンのジャイロセンサを用いてユーザの向きをリアルタイムに取得する」「スマートフォンのジャイロセンサを用いて設置した点字ブロックに対するカメラの向きを取得する」と書かれています。ただ一般的にはジャイロセンサは角速度センサなので、姿勢に変換する部分は積分が行われる必要がありますが、そこはどのように行っているのでしょうか。また姿勢ということであれば地磁気センサを使うことが考えられると思いますが使わなかった理由はありますでしょうか。