論文一覧に戻る

査読者 1

総合点

5

確信度

2

コメント

本研究では,魅力的なダンス動画を作成できる支援システムを提案しています.また,非専門家でも簡単に映像を生成できるように,多視点ダンス映像から最適な映像を自動的に選択する機能(自動動画編集機能)や,カメラ選択パラメータを手動で制御できる機能などを提案しています.多視点ダンス映像から最適な映像を推薦する機能について評価し,有効な結果が得られました.

デモ動画は楽しく拝見しました.また,デモ動画からシステムが着実に実装されていること,システム設計においてダンサーにアンケートをとって検討していること,依頼が難しそうな動画編集専門家10名に映像を評価してもらっているということは,ポジティブな印象をもちました.



一方,研究の目的・システム設計・評価の整合性について問題を感じました.本論文の目的はタイトルにあるように「多視点ダンス映像のインタラクティブ編集システム」と思われますが,紙面の多くは,カメラ選択の自動化の説明に割かれています.

システムが提供する各機能は,カメラ選択の自動化だけでなく,原則をもとにしたヒートマップ調整スライダや,各拍ごとに映像を選択する機能があります.ターゲットユーザ(映像編集の非専門家であるダンサー)は,システムが提供する各機能をどの順番でどのように利用するのかわかりませんでした.

2章の2段落目において「ユーザの好みに沿った動画の組み合わせであった場合は,そのまま編集作業に移行する」と記述されていますが,この編集作業というのは何を意味にしているのでしょうか?

また,図1の各種パラメータは原則(例えば原則2 カットの最大長・最小長はユーザの好みに応じて変化させる)がそのまま記述されていますが,これを見てユーザはどういう映像が選択されるのかイメージできるのでしょうか?

「編集用のタイムライン上では,各動画が1拍毎に区切られて表示されており,マウスで表示したい動画を選択することによって,1拍区間内の動画を変更することができる」と記述されておりこの機能に関しては有用だと思いますが,ユーザが手動で好みの動画を選択した後に,ヒートマップ調整スライダでパラメータを調整した場合,手動選択した動画は残るのでしょうか?
ユーザはあるタイミングにおいてこのカメラからのアングルがほしいという要求はあるように思えます.

図1中に示されている赤色で塗りつぶされた三角形は何を意味しているのでしょうか?デモ動画中には説明がありましたが論文中には説明がないと思います.

手動で選択する場合,1拍ごとに選ぶ作業は煩雑ではないでしょうか?タイムラインの拡大縮小機能がありますが,タイムラインを縮小することで数拍単位で動画を選択できるのでしょうか?

評価実験では自動動画編集機能について評価しています.ターゲットユーザを対象に,提案システムが映像作成にどのように役だったのかについて評価する必要があると感じました.

自動動画編集機能の評価における被験者は,映像編集の専門家でしたが,ダンス経験はどうだったのでしょうか?ダンス経験の有無で判断がかわってくると思いました.また.なぜ被験者は映像が良いと判断したのかという根拠がわかりませんでした.

論文中に可読性に影響する表記ゆれが散見されました.論文自体の記述の粗削り間は否めません.
例えば,
 「インタラクティブ編集システム」「多視点動画編集システム」
 「自動動画編集機能」「動画編集機能」「自動生成機能」


以上のように,研究の目的・システム設計・評価について一貫性が欠けており,「ショート採録が妥当」と判断いたしました.


下記の文献が関連あると思います.

松井遼太, 竹川佳成, 平田圭二, 最適な多視点カメラワークを自動生成する遠隔ピアノレッスン支援システムの設計と実装, 情報処理学会研究報告, Vol. 2017-MUS-114, No. 23, pp. 1--7 (2017年2月).

採録判定時のコメント

映像編集の素人でも簡単に魅力的なダンス映像が作成できることを目的とした、多視点ダンス映像の編集支援システムの提案。最適なカメラ映像を自動選択する機能は興味深く、実装もされている。一方論文としては、「魅力的な映像」の意味が定義されていないこと・自動カメラ選択機能の一部に数学的な誤りがあることに加え、目的・システム設計・評価において一貫性が欠けているなど多数の問題が残っており、ショート採録と判断された。

レビューサマリ

本論文は、映像編集の素人でも簡単に魅力的なダンス映像を作成できることを目的として、ダンスの多視点映像の編集を支援するシステムを提案しています。特に、最適なカメラ映像を自動的に選択する機能は興味深く、デモ動画からプロトタイプもしっかり作られていることがわかりました。

しかし、以下の通り,見過ごせない問題がありました.
・魅力的な映像の意味が定義されていないこと
・自動カメラ選択機能の一部に数学的な誤りがあること
・目的・システム設計・評価において一貫性が欠けていること
・論文中に可読性に影響する表記ゆれが散見されていること

以上の結果から、ショート採録と判断されました。

なお、多数の問題点が指摘されていますので,論文の修正は容易ではないと思われます。ショート採録の場合でも論文の短縮は必須とされてはいませんが、
修正が容易でない場合には、例えば、自動動画編集機能だけに焦点を当てた4ページのコンパクトな論文に改訂することも1つの方法だと思います。

その他コメント

査読者 2

総合点

6

確信度

2

コメント

本論文は,魅力的なダンス映像の作成を目的として,ダンスの多視点映像の編
集を支援するシステムを提案しています.

本論文のシステムは,事前の適切な検討のもとで,概ね妥当な実装がなされて
いると思います.また,十分な評価実験もなされており,概ね良好な結果も得
られていると思います.

しかし,3.1.2節と3.3節に記述されている数式とその説明に関しては,第三者
が明確に理解できる水準には達していないと思います.また,カメラ遷移の確
率モデル,特に式(5)の妥当性には後述の通り疑義があります.

まず,説明なしに導入されている記号や,複数の意味に用いられていて誤解を
招きかねない記号があると思います.例えば式(1)に現れる,n, m, t, εとい
う記号や,x^n_tなどの確率変数についての説明がありません.このような式
を書く前に,その式に現れる特定の記号の意味をきちんと説明してください.

また,式(2)の直前でP_tという記号が導入されますが,式(5)の直前にもP_2,
P_3などの記号が導入されます.tは2や3などの値も取りうるわけですから,記
号に重複が生じています.

式(5)の直前に導入される評価関数Oについては,引数を明示すべきです.おそ
らくP_2なども関数になっていると思われます.

式(5)の直前にある「評価関数Oが最大となるカメラの組み合わせの動画を生成
する」という記述の意味も明らかでないと思います.Oの引数が明示されてい
ないことに加えて,「カメラの組み合わせ」が具体的にどのように表現される
べきものであるのかがわからないと思います.

そもそも,式(5)は正しいのでしょうか.logの性質を考えれば,

O = log(a_2 P_2) + log(a_3 P_3) + log(a_4 P_4) + log(a_5 P_5) + log(a_6 P_6)
  = log(a_2) + log(P_2) + log(a_3) + log(P_3) + log(a_4) + log(P_4) + log(a_5) + log(P_5) + log(a_6) + log(P_6)

が得られますので,a_iをどのように選ぼうと,Oを最大化する入力は変わらな
いのではないでしょうか.

これは実験結果にも影響を与えうる問題だと思います.3.1.2節で言われてい
る「確率」が本来の意味で使われているかどうかも確認してください.

式(6)で導入されるSに対して,式(7)で用いられるS_1, S_vがどのような関係
にあるのかも示されていません.

式(6)の直前にある「各動画vの1拍毎を1つの箱b_vと見なし,1試行毎の評価関
数の結果O_tを重みとして,動画生成時に通った動画v_tと一定する箱に値を加
えていく」という記述も,第三者に理解できる説明にはなっていないように思
われます.

式(7)の右辺の分母は誤りであると思われます.普通に考えれば,S_vではな
く,S_nだと思われます.

以下は詳細についてのコメントです.

- 本論文には「映像」と「動画」の両方の語が現れますが,使い分けているの
  でしょうか.使い分けているのであれば,論文中で違いを説明してくださ
  い.使い分けていないのであれば,可能な限り一方に統一するほうがよいと
  思います.

- 3.1.2節の最後に導入される評価関数Oは,容易に最大化の計算ができるので
  しょうか.一般的には,関数の最大化は簡単な問題でないことが多いと思い
  ます.

- 3.2節で「Openpose」とありますが,「OpenPose」だと思います(3.1.2節で
  はそのように書かれています).

- 3.3節で「Gopro Hero5 session」とありますが,大文字・小文字の使い方を
  確認してください.

- 4.2節で「Fig.4.2」とありますが,「図4」だと思います.

以上です.

査読者 3

総合点

6

確信度

2

コメント

ダンスビデオを簡便に作成するための支援ソフトウェアの提案です。

【主なクレーム】
本論文では、以下のような主張を行っています。
・映像編集の原則を5つ定義し、それに従ってカメラを切り替えることで魅力的なダンス動画を生成できること。
・上述した原則を実現するためのアルゴリズムと実装を提案したこと。
・ベースライン条件と比較して提案法が優れた評価を得たこと。

一方で、「魅力的な」という抽象的な表現を用いていることから、これがどのようにサポートされるのかよくわかりませんでした。アンケート調査においても「かっこいい編集だと思ったか」という言い換えが行われており、この定義が必要だと感じました。

添付されていた映像を閲覧しましたが、個人的には画角に変化がないロングの映像ばかりがつかわれており、平坦でダンスのダイナミックさを損なってしまっているように感じました。たとえば、既存のダンス映像で高い評価を得ているものを分析し、その撮影テクニックを分類、再現できるようであるとシステム、および、出力映像ががより魅力的になるのではないかと思いました。

また、専門家に評価を依頼しているのであれば、その専門家からなにか意見は得られなかったのでしょうか。定量的な評価以外に定性的な評価があれば、より課題が明確になるのではないでしょうか。

【疑問】
ダンスパフォーマンスに適した映像編集のための原則は必ずしもダンスパフォーマンスに特化されていないように感じました。これらが正確に正当化されると論文の信頼性が向上すると思います。

カメラの選択についてすべてGoPro5を使っています。当該機はかなり広角なレンズを採用しています。レンズの特性上、10台のカメラのレイアウトが適切だったか、気になるところです。

カメラのレイアウトによってはバレットタイムのような映像手法を考えられそうです。これらの映像手法は既存のダンスビデオには使われていないのでしょうか。

ダンスビデオは1人のダンスを撮影したものの他に多人数によるダンスを撮影したものもありそうです。これらへの適用はいかがでしょうか。

インタラクティブ編集システムなので、編集を評価対象とすべきだと思いますが、今回は自動生成された(あるいは実験者が作成した?)映像を評価したのは何故でしょうか。

【細かな指摘】
以下の文献は、書籍であるようです。この書籍のどの部分を参照したのか、章やページ数を引用の際に示していただけるとより主張が正確になると思います。
[5] J. C. Foust, E. J. Fink, and L. S. Gross. Video Production: Disciplines and Techniques. Taylor and Francis, 2012.
[6] C. J. Bowen. Grammar of the Edit. Taylor and Francis, 2013.