■ 論文ID: 46 ■ タイトル: 静止画内物体への変形指示による動画検索 ■ 著者: 川手裕太(電通大),岡部誠(電通大),尾内理紀夫(電通大),平野廣美(楽天/電通大) ------------------------------------------------------------------ レビューサマリ ------------------------------------------------------------------ ユーザが矢印を書き入れて検索するという方法に新規性があり、実験結果も有用性を示していると感じております。 ただし、技術やシステムとしての完成度・インタラクションデザイン、論文の記述などの点で、まだ荒削りな印象を受けました。 採録された場合には、各査読者のコメントをよく読み、 特に「論文改善のためのコメント、疑問」には可能な限り対応して修正をお願い致します。 ------------------------------------------------------------------ reviewer 1 ------------------------------------------------------------------ ■ 総合点: 3 ■ 確信度: 2 ■ 査読コメント: ■ 評点の根拠  提案された動画検索インタフェースは、画像をクエリとした情報検索において、その画像に(画像的な)情報として「変形指示」をユーザが書き込むものです。これは、従来の「内容に基づいた画像検索」の考え方を拡張する新しい提案であると査読者は理解しています。つまり、クエリとしての画像の意味をユーザが拡張できる点に、新規性と内容に基づいた画像検索の新しい未来を切り拓く可能性を感じました。従来、画像に基づいた検索は、その画像をユーザが用意する必要がありましたが、提案されたインタフェースではそのような状況において、たとえ完全な画像が手元になくても検索システムを利用できる可能性を持っています。 また有用性の観点からも、検索結果は変形指示を反映していて有用であるように感じました。  しかし、第3章「ユーザインタフェース」において、インタラクティブなシステム・ソフトウェアとしての新規性・有用性、使いやすさ、があるのかを判断する上で説明が不十分(第2段落のみ)と感じました。ユーザがどういう操作をどういう画面上でどのように行うのか(マウスでドラッグ?)が不明瞭です。  WISSの論文募集には「未来を切り拓くような新しいインタラクティブなシステム、ソフトウェアに関する研究成果についての発表を募集します。」とあることから、インタラクティブなシステムや新しいインタラクションの提案が特に重要だと査読者は考えています。現状の説明では、「矢印という付加情報を付けた画像」を入力とした画像検索システムとしての新規性や有用性を読み取ることができましたが、どういったインタラクティブな要素やインタラクションがあって、それがどういう点で新くてどういう未来を切り拓くのか、どういうインタフェースなのか、などに関する説明が不明瞭と感じました。 以上が主な評点の根拠ですが、以下に示すような改善点を感じた結果も含めて総合的に判断しました。 ■ 論文改善のためのコメント、疑問 (1) 動画の前後フレームにおける連続性を利用して、その追跡を行うという方法を動画中の顔認識で用いた例があり、関連する研究だと思いますので、参考文献として引用した上で提案システムの新規性を主張する必要を感じます。  平井 辰典, 中野 倫靖, 後藤 真孝, 森島 繁生, ”シーンの連続性と顔類似度に基づく動画コンテンツ中の同一人物登場シーンの同定」,” 映像情報メディア学会誌, Vol.66, No.7, pp.J251−J259, 2012. (2) 「ユーザが提案インタフェースを使いたくなるモチベーション」や、「利用する状況のリアリティ」、「本論文にどのような貢献があるのか」、が読者に伝わりにくいと感じます。  例えば、以下のような使用状況が書かれていますが ・「スケッチインターフェース(図1(a)) にて,2本の緑矢印の描画で入力静止画内の物体の変形を指定する.」 ・「F1カーが左から右に走行するシーンの視聴している時,図2(b) のように正面向きに走行するF1カーのシーンを視聴したいという状況を考える.」 このような使い方ができるのは理解できますし、 ・「ユーザが物体の様子を言葉で正確に記述することは困難であり,面倒である.」 という理由と、だから変形指示を書き込むという解決方法は理解できます。  しかし、どういう状況でそのような動画検索が必要なのかが、査読者は理解できませんでした。例えば、F1カーのシーンを見ている人はそういう検索をしたいという事実があるのであれば、なぜしたいのかといったモチベーションを丁寧に説明する必要があると感じます。第3章の第1段落の説明は、どういう人が何のために行うのか分かりませんでした。  有用なインタラクションやインタフェースを実現するためには、ユーザ視点での問題発見や対象ユーザの特性に合わせたインタフェース構築が重要だと査読者は考えていますが、「どういう問題があるのか」、「どういうユーザが対象なのか」を、リアリティ持って説明することが重要だと思います。 (3) 「ユーザは入力静止画内の物体に2本の緑矢印を描くことで」という表現で説明がなされていますが、矢印は指示であって、「実際に画像中には描き込んでいない」ということを一箇所でも明記すると良いかもしれません。 (4) 第3章で、矢印のサイズがどのように関係するのか、この段階で不明ですので説明があると良いと思います(4.2節での説明を受けて、図3を改めて見れば分かりました)。 (5) 第4章における実装の説明が一部不十分です。 第4.1節において、Visual Words を使用したマッチングの説明が、理解しづらく、不十分と感じました。 「2. 抽出した特徴量をランダムに選択し,クラスタリングを行う.」 「3. それぞれのクラスタの中心のデータを辞書とする.」 「4. 辞書を使用し,残りのSIFT特徴量についてクラスタの特定を行う.」 「クラスタリングにはK−means 法を使用する.」 とありますが、2のクラスタリングにk−means法を使用するのでしょうか?「辞書」とは何でしょうか?K個あるクラスタ中心(セントロイド・プロトタイプ)のことでしょうか?また、4の「クラスタの特定」も具体的にどのような操作か不明です。 また、第4.2節は非常に重要にも関わらず、文章による説明のみなので、理解を助けるためにも図による説明を追加すると良いと感じました。 (6) 図8の結果が三つありますが、それぞれが何なのか説明が必要と感じます。 上位3フレームで、左から1,2,3位でしょうか?図中もしくはキャプション中に説明を追記して下さい。 また、 2 行目左向きに移動するF1 カーのシーン 3 行目右向きに移動する馬のシーン 4 行目正面向きに移動する馬のシーン 5 行目右向きに飛行する飛行機のシーン を、図中もしくはキャプションにも記述すると、より読みやすいと感じます。 (7) 査読者の個人的な意見としては、基本的には図表は文中に挟まず、全て上に配置した方が論文として見やすいと感じます。 (8) 提出されたデモビデオでは、合成音声による説明が含まれていましたが、理解しづらい場合がありましたので、文章による説明も必要と感じました。 ■ 採択された場合の議論内容に対するリクエスト: 私が評点の根拠で書いた ・「「内容に基づいた画像検索」の考え方を拡張する新しい提案である」 というのは、査読者が論文から読み取った本論文の魅力であり貢献ではないかと考えていますが、著者の考える貢献やどういう未来を切り拓くのかといった議論がもしあれば、それを論文中で記述いただいたり発表中に説明いただけると、当日の議論の観点から良いと感じました。 (「未来ビジョン」の項を設けてほしい、という意味ではありません。) 例えば、「矢印の描き方に対してコンピュータから推薦がある」、「検索結果を見てユーザの次の行動が変わって、次はより良い検索をできるようになる」、等のようなインタラクティブな機能など、今後の展開を含めて議論があると良いのではと感じました。 ------------------------------------------------------------------ reviewer 2 ------------------------------------------------------------------ ■ 総合点: 4 ■ 確信度: 2 ■ 査読コメント: 【評点の根拠】 動画内のシーン検索を行う方法として、ユーザが矢印で指定した変形に類似したシーンを検索するというやり方はユニークで新規性が認められます。論文では、そのアルゴリズムの詳細と、実際にいくつかの動画に対して行った実験結果が示されており、論文および技術の有用性が認められます。 【論文改善のためのコメント】 ・提案手法は「矢印の開始点付近にある特徴点群が、矢印の終点付近に分布しているようなフレームを探す」というアルゴリズムだと理解しました。論文中では主に方向が変化するケースに注目していますが、その他の変形に対する検索可能性についても言及されることを望みます。例えば、画面内の上下左右方向の移動や、物体のスケーリングに対しては対応可能だと予想しますが、正面を向いている人物のシーンから、真後ろを向いている人物のシーンを指定するようなことはできないように思います(特徴点の対応がとれないため)。 ・「関連研究」の最後の2文が論理的に繋がっていないように見えます。既存手法は連続した単一のシーンに対する手法であるのに対し、提案手法は不連続な複数のシーンに対しても適用可能という意味でしょうか? ------------------------------------------------------------------ reviewer 3 ------------------------------------------------------------------ ■ 総合点: 3 ■ 確信度: 2 ■ 査読コメント: 本論文では,静止画像に対して,2本の矢印を入力することで目的シーンを検索可能な動画検索システムを提案しています. 複数の点に対してその始点と終点を指定することで,意図する画像を含むシーンを検索するというアイデアはユニークで,また,その入力方法もある程度直感的で,高い有用性を備えた提案システムだと思います. しかし,提案システムの有用性を判断する上で以下の2点が気になります.1点目は,どの程度のユーザが,自分の思い通りの入力ができるかという点です.参考ビデオでは,正面を向くF1カーや奥を向く乗馬のシーンなどの検索例を示していましたが,この入力が,システムの初心者でも可能なのかどうかが気になります.2点目はシステムの検索精度です.論文では,1つの動画内で目的のシーンが正しく検索可能かという評価を行っていますが、複数の動画を検索対象とした場合,特に,同一のオブジェクトではなく類似オブジェクトを多数含んだ動画集合に対してどの程度の検索精度が得られるのか興味があります.また,入力始点の近傍にSIFT特徴点が得られていないと,意図した検索ができないと考えられます.今後こうした点を明らかにする評価実験を行っていただけると,提案手法の有用性をより明確に示すことができると思います. 以下,細かな点です. − p3. だだし −> ただし − p4. それぞの −> それぞれの