論文一覧に戻る

査読者 1

総合点

7

確信度

2

コメント

本論文では,一人称視点動画から特定のシーンを高速に発見するための動画再生手法を提案しています.提案手法では,動画中に出現するオブジェクトを同定し,オブジェクトの出現区間に基づいて,手がかりに重要なオブジェクトを自動的に選択します.実験を通じて,既存手法よりも提案手法の方が効率的に特定シーンを発見できることを明らかにしています.

オブジェクトを手がかりとして高速閲覧するというアイデアは面白く,また,出現分布に基づくキューの選択方法についても妥当な方法だと思いました.プロトタイプの完成度も高く,実際に利用できるレベルだと感じました.

査読者が最も疑問に思ったのは,本研究のモチベーションです.一人称視点動画を撮影する機会が多くなることは納得できますが,その動画を「撮影者本人」ではなく,撮影者以外の第三者が視聴するという行為に本当にニーズがあるのかが分かりませんでした.たとえば,ライフロギングという目的であれば,第三者が視聴することはほとんどなく,撮影者本人が動画の視聴者だと考えられます.
撮影者本人と第三者では,動画に対する事前知識が大きく異なり提案手法の有用性もそのため大きく変わってくると思います.第三者を対象とするのであれば,第三者が一人称視点動画から特定シーンを探すことのニーズを明確に示す必要があります.

また,実験では探すべき目的のシーンを被験者に見せ,そのシーンと同一のシーンを発見するというタスクを行っていますが,上記と同様に,このような動画検索に本当にニーズがあるのかが分かりませんでした.実験内容が現実のタスクにどれだけ即しているのか,説明が必要だと思います.

最後に実験についていくつか細かい疑問点を示します.

今回の実験は被験者内計画だと理解しましたが,被験者は各動画について提案手法と比較手法それぞれを用いて実験を行ったのでしょうか?実験計画についてもう少し詳細に情報を記載して下さい.

インタフェースの主観評価において,「提案インタフェースを7,比較インタフェース1とした」と記述していますが,実際に数値が被験者に見えていたのでしょうか?その場合,実験結果に提案手法に有利なバイアスが載ってしまう恐れはないのでしょうか.

図3: 有効でないキューの組み合わせ(C’3) -> 有効なキューの組み合わせ(C’3)かと思います.

採録判定時のコメント

一人称視点動画に対する高速閲覧手法の提案である。映像内に映るオブジェクトを手がかりとする手法には新規性がある。評価実験にはあいまいな記述が残るものの、実験結果は既存手法に対する優位性を示している。また、プロトタイプシステムも完成度が高い。以上の理由から、ロング採録と判断された。

レビューサマリ

既存手法の問題点を分かりやすく整理し,オブジェクトを手がかりとするという,既存手法よりも適用範囲が広い手法を提案しているという点,評価実験により有用性を明確に示している点が高く評価されました.また,論文もシステムも完成度が高く,非常に良い研究だと思います.

下記は,査読者のレビューおよび査読者間の議論で出た主な問題点をまとめたものです.研究を今後改善していく上での参考にしていただければと思います.

○提案手法の適用範囲
複数の査読者が指摘している通り,今回の実験で得られた知識がどの程度既存手法の問題点を解決しているのか,という点を明確にする必要があります.たとえば,提案手法は確かに任意の動画に対して適用可能だとは思いますが,提案手法が有効に働く動画とそうでない動画はあるはずです.提案手法の適用範囲について整理されると良いのではと思います.

○実験内容の記述
実験内容の記述に曖昧な箇所が多くあります.いくつかは実験結果の信頼性に影響を与える指摘ですので,個々のレビューを確認いただき,適切に対処されると良いと思います.

○ニーズの明確な説明
一人称動画を,撮影者本人ではなく第三者が閲覧するというニーズがどの程度あるのかという指摘がありました.本文中ではあまりその点について触れられていませんので,ニーズについてもう少し具体的な例をあげると良いと思います.

その他コメント

査読者 2

総合点

8

確信度

1

コメント

既存の手法ではできなかった、任意のシーンを強調しての閲覧、任意の入力動画に適用可能、初見の動画に対しても有効という
条件を満たした一人称動画の高速閲覧システムの提案として、新規性が高いと考えられます。
提案された評価関数、ユーザインタフェースからも有用性が高いと考えます。


評価実験の項:
「実験参加者は片方のデータセットを提案インタフェースで,
 もう片方のデータセットをHiguchi らの手法で提案
 されたキューを搭載したインタフェースで閲覧する.」
とありますが、手法ごとに別のデータセットを使って比較したという意味でしょうか?
だとすると正確な比較になっているのでしょうか?

「それぞれの一人称視点動画から,顕著性の高いイベントシーンを2 秒程度の動画で抜き出し」
とありますが、例えばどのようなシーンを用いたのか例を挙げるべきだと思います。
そもそも既存手法[2]は動作を対象にしているので、明らかに向き不向きがあり、
イベントの選び方次第では比較として妥当なのか評価実験に疑問点が残る可能性があります。


=細かい点
・図2および図3の見方が分かりにくいので、もう少し説明が欲しいです。
 色は何を意味しているのか、ちょっと考え込まないと理解できないです。
・「図2 の上のようなキューの組み合わせ」「反対に,図2 の下のようなキューの組み合わせ」
 は図3の間違いだと思われます。

査読者 3

総合点

7

確信度

2

コメント

対象とする映像の視聴の手がかりについて提案し,既存手法と比較して,その有用性を示している明確に記載されている論文であると思います。

疑問点としては,提案手法は既存手法の欠点としてあげている(1)任意のシーンを強調して閲覧可能,(2)任意の入力動画に適用可能,(3)初見の動画に対しても有効ということが,解消されているのか,完全でなくてもどのくらい改善されているのかを明示していないというところです。「任意」という表現は,大変に強い言葉なので,これが,完全に解消されることは難しいとは了解できますが,欠点として掲げている以上,これに対応する記載が,提案手法またはまとめに必要と思います。または,ここの部分は,既存手法では問題だが,提案手法では解決されているものに絞った書き方をするべきで,そのほうがわかりやすいと考えられます。

特に,提案手法が有効であるような動画の条件について,明示されていないで,あたかも,任意の映像で有用であるかのような文脈で提案されているのは,気になるところです。