査読コメント (ID: 2)

査読者 1

総合点

確信度

採否理由

本研究はダンス映像のフレーム間類似度の行列を計算することにより、ダンス動画のモーション訂正を支援するためのフレームワークを提案している。研究のモチベーションとして、人手では時間のかかる作業を、同一の動きをしているであろう他のフレームとの類似度を計算することで支援しようとする枠組みは興味深い。

本論文でも記載している通り類似度行列用いた手法は存在しているが、ダンス動画において同一のモーションが何度か観察されることに着目し類似度行列に基づく手法を用いたことは妥当性があるといえる。また類似度行列を用いることにより、姿勢の推定エラーのあるフレームに対して、類似画像の姿勢推定結果を利用するという発想は面白い。

一方で、提案手法では画像類似度の計算がシンプルすぎるためうまく動作しないであろうシーンが多く想定される。例えば、背景に動く物体が存在する場合や、同一のモーションを別の場所で行っているときである。論文中には、6.1の処理において「人が動いている範囲のみを切り出す」とあるが記載が正確でなく妥当性が判断できなかった。論文に記載のある通り、これらはMask-RCNNなどオブジェクト領域検出などを用いて人物領域だけを切り出し比較することも可能であるので、現状の処理には大きな改善の余地がある。

上記のとおり、本論文のモチベーションや提案手法には評価できる点があるが、論文の議論にもある通り提案システム全体の実装・検証には至っていないというのが現状であろう。ただ、WISSにおいて議論を行う価値はあり、一査読者としてショートでの採録が妥当であると判断する。

この研究をよくするためのコメント

論文中の記載だけでは、ダンス動画において実際にどのようなエラーが発生するのかを想像するのが難しかった。OpenPoseなどの学習済みモデルでは、学習時のバイアスにより同一の姿勢に対して同様なエラーを吐き出すことがある。そのため、同一のモーションに同じ推定エラーが発生してしまった場合には、類似モーションの推薦機能の効果は少なくなってしまう（その場合でも、同一モーションにエラー発生しているということが知れるというメリットはあるが）。本論文を修正する際には、具体的なエラー例の記載があると提案システムの有効性を納得させやすいだろう。

採録判定時のコメント

本論文ではダンス動画におけるモーションの自動抽出を効率よく補正するための手法の提案を行なっている。問題設定が面白く、フレーム間の類似度行列を用いた類似モーションの検索提示機能はシンプルであるが有効であるように思われる。一方で、査読者からは本システムで類似と判断されたフレームの妥当性や、類似度判定がうまく動作する/しないの条件が明らかでないなどの疑念点があり、ショートが妥当であると判断した。

レビューサマリ

総合点が5,3,5となり意見が別れました。

評価できる点としては、問題設定の新しさやモチベーションや、実際に動作するUIを示していることがありました。

一方で、問題点としては類似フレーム検索に類似度行列を用いる提案手法の新規性、システムの革新性や有用性の評価があげられました。

特に本論文の有用性を判断する重要なポイントとして、1)モーション訂正のために本システムで類似と判断され推薦されるフレームが妥当であるのか、2)画像類似度の計算がうまく動作しないであろうシーンが多く想定されるためどのような条件ならば有効であるのか、を明らかにすることが重要であると考えます。

そのため、下記の二つを採録条件としてのショート採録と判断いたしました。
1) 提案システムが有効である具体的な例を論文中に示す
2) 類似度計算がうまく動作する条件を明らかにする（特に姿勢推定が失敗し、類似度計算がうまくいくようなケース）

その他コメント

査読者 2

総合点

確信度

採否理由

ダンス動画を検索するにあたり，振り付けのポーズをデータ化する必要がある．現状では全て自動で生成する事は現実的でなく，人力でエラーを訂正する必要がある．提案されたシステムではダンスモーションが繰り返し同じキーフレームモーションを含むことに着目し，すでに設定された他のキーフレームから類似性の高いものを提案することで作業の軽減を測っている．
モチベーションや提案されたシステムは一定の価値が認められるが，WISSの場で議論する内容として解決される問題の大きさや，提案システムそのものの革新性が十分と認められず不採録と判断した．

この研究をよくするためのコメント

論文そのものや提案システムに大きな不足はなく，実際に問題解決に一定の寄与があるものとは思える．実験などを行ったうえで他の研究会，学会などへの投稿をお勧めしたい．

査読者 3

総合点

確信度

採否理由

本論文では，ダンス動画からモーション抽出する作業の高速化手法が提案されています．近年では，関節位置推定を行うことにより，モーションデータを自動で抽出することができるようになってきたが，これにはまだ誤差が大きく手動の調整が必要となっています．提案手法として，ダンスの繰り返し構造に着目し，関節位置推定に失敗したフレームの修正時に，画像的に類似する他フレームから関節位置を推定し，その結果を候補として示すUIシステムが実装されています．

自動抽出の精度とは直交するアプローチとして，今できる手動修正にすぐ使える便利なツールとして提案がされており，この点で新規性が認められます．また，繰り返し構造に注目して，他フレームから情報を回復するというアイデアは面白く，独自性が高いです．上手く動くようであれば，すぐに使える非常に有用なツールとなることが期待されます．

論文では，提案ルーツを使って実際に修正がどのように高速化しそうかの議論にはまだ至っておらず，また，サジェストされたポーズの妥当性が明確でないため，まだアイデアの有効性の判断が難しくなっています．少なくともデモ動画ではまだ，候補と実際のポーズとの乖離が大きいように感じられます．

手法の目指しているところは面白く有用であり，アプローチも新規であるため，ショート採録と判断しました．

この研究をよくするためのコメント

画像が類似すれば，関節推定も同様の失敗をする可能性が高く，他の類似フレームであれば関節推定が上手くいくケースがどの程度あるか，またそれはどのようなケースなのかを明らかにしていくことが，アイデアの有用性に関する今後の評価ポイントと思います．