査読者1

[メタ] 総合的な採録理由

ダンスの振りを覚えることを支援するユーザインタフェースを実現するために、視覚特徴と聴覚特徴を用いてダンス動作を自動分割する手法を提案しました。アノテーションインタフェースと応用インタフェースの2種類を実装されており、実用性高く動作していると判断されました。全査読者のコメントを参考に、論文の質をさらに高めていただけることを期待します。当日の発表を楽しみにしております。

[メタ] 査読時のレビューサマリ

「分割」や「振りの理解」についての定義が不明瞭で、学習データの妥当性についても説明が必要だというコメントもありましたが、総合的には、新規性・有用性・実用性・論文の質の観点から、採択と判定されました。具体的な査読のポイントをまとめると以下の通りです。
1) 評価できる点
・新規性あり（査読者21, 92）
・実装が適切（査読者21）
・実用・有用（査読者21, 64, 92）
・論文の質が高い（査読者21, 64）
2) 改善が必要な点
・分割の定義が不明。適切な分割は正解が一つか不明（査読者21, 145）
・「振りの理解」の定義が不明（査読者145）
・今回の学習データの妥当性が不明。したがって、有効性が不透明。今後の検討課題とは理解。（査読者145）
・提案システムの有効性が不透明ならば、明らかにした知見（視覚＋聴覚がそれぞれ単独の場合より有効）のみでは、貢献が大きくはない（査読者145）
3) コメント
・視覚情報の貢献に関する議論があるとよい（査読者64）
・対象ユーザを明確にするとよい（査読者64）
・リズム抽出に対する優位性の説明があるとよい（査読者92）
・評価に関する議論について改善可能性がある（査読者92）
・対象となるダンスの種類を明確にするとよい（査読者92）
・既存の手動分割システムと比較を実施するとよい（査読者92）

[メタ] その他コメント

分割や振りの理解に関する定義がなされ、ツール・システムの有効性評価が適切になされた場合、推薦論文・雑誌論文として採択される可能性はあると考えます。

総合点

5: 採録

確信度

2: やや専門からは外れる

採否理由

本論文は、カメラで撮影された音楽を伴うダンス動画から、視覚特徴量と聴覚特徴量を抽出し、ダンス動作を分割する位置を推定する手法を提案し、その手法を用いたユーザインタフェースを提案する。分割位置の学習データは、位置候補をビートから生成して用い、GUIで第一著者が作成した。AIST Dance Video Databaseを用いて学習・評価を行い、視覚特徴量と聴覚特徴量の両者を用いる場合が、それぞれ単独で用いるよりも性能が高いことを示した。また、この手法を用いた応用インタフェースとしてダンス学習支援システムを実装した。提案手法の実装方法は適切であり、またアノテーションインタフェース及び応用インタフェースも良く動作していて、分割作業を効率化させて実用的であると感じた。論文の質も高く、採択として判定した。ただし、分割の定義が不明であるので、定義があればそれを示し、なければ、アノテーションされた結果、どういうところで分割されているのかを分析・考察した文を追加すべきである（例えば、繰り返されてるから、等）。関連して、「適切な分割位置」という単語が出てくるが、適切とは何か、今回のアノテーションは適切だったのか、を追記いただけるとよりよい。また、聴覚特徴量の抽出部分の記述が再現できないので、音楽のサンプリング周波数、STFT分析条件、メルスペクトログラムの条件（次元数や周波数帯域）、Conv2dの条件（カーネルサイズやストライド等）を明記いただきたい。[3]と同等ならばその旨を追記すること。

この研究をよくするためのコメント

・デモビデオでは分割された動作が速すぎて、どういう分割になっているのかがよくわからなかったので、当日のプレゼンでは、スロー再生をしたり、スナップショットの連続で示したりしてくれると分かりやすいのではないか。
・上記と関連して、分割された動作の例など、論文も紙面が余っているようならば、事例があるとわかりやすい。
・ピーク検出方法の詳細が理解しにくかったので、紙面に余裕があれば追記があるとよい。今の定義では、ピーク（微分値が正から負へ反転する）を明示的には検出しておらず、sの取り方によっては、ピークの途中が局所最大値になって検出される場合もあるのではないか？sは等間隔に移動させていくのか？だとすると、sを1フレームずつずらしたとすると、前後のフレームで隣り合ったピークが検出されることがある？それとも一度ピークを見つけたら、次のピーク検出を、今のピークからs+ω/2だけ移動させたところをs'として検出する？・学習時のバッチサイズは[3]と同様に1？明記するとよい。

査読者2

総合点

5: 採録

確信度

2: やや専門からは外れる

採否理由

問題設定・提案手法の説明・実験結果についての考察、いずれも妥当・適切かつ簡潔でわかりやすい記述で説明されており、採録に値すると判断する。提案手法の技術的妥当性については、査読者があまり詳しくない領域でもあるため直接の判断は難しいが、提案手法の現時点での限界についてはよく説明されているため、同種の研究を志す研究者に有用な情報を与えるだろう。実験結果の分析についてはまだまだ深めて議論できる余地があると思うので、論文としての完成度にはまだ余裕がある。詳しくは「コメント」に記す。

この研究をよくするためのコメント

視覚+聴覚モデルが聴覚のみモデルより優位であったのはよいとして、では視覚情報がどのように成績向上に貢献したのか、を取り出して議論を深めることができないか。論文および補足ビデオから最初に気付くのは、基本的には小節の区切りがそのまま分割候補点になりやすく、それなら聴覚のみモデルで十分でありそうなところだが、視覚情報を併用することで不要な候補を削ることで適合率を上げているのか、といった考察が引き出せるのかそれともそうでないのか、なにかしら議論が欲しい。また、図3(b)から想像するに、裏拍に分割点が来る場合に弱いように見えるが、もしそうだとすれば学習データの偏り（表拍に振りの切れ目がくる動画が多い）のせいなのかそうではないのか、といったように、より議論を深められる余地がある。使用した曲について、なにがしかの特徴量を示して議論することが可能かどうか、検討されたい。加えて、拍構造の希薄なコンテンポラリーダンスなどは、聴覚情報の重みがおそらく弱くなるであろう。一方で、これは学習データが充実すれば視覚十分に解決できるのかもしれない、しかし現行の学習用データセットでは不十分のおそれあり、といった議論への発展が期待できる。今回の論文内ではその議論はスペース的に困難かもしれないが、検討いただきたい。また、今後そうした検討を踏まえての研究の発展を期待したい。提案手法を利用したツールで練習用の分割映像を作成するのは、1章で述べているように、初心者も熟練者もその対象に入っているようだが、主にどちらを目指そうとしていて「今後の課題」が設定されているのかがわかりにくかった。熟練者が、多数の初心者の学習を支援するための、汎用性の高い分割動画を作成することを想定するのか、それとも初心者が自力で学習するために独力で自分だけのための分割動画を作成することを想定するのか、いずれかで、最適な分割点は異なるかもしれないので、現時点でどこを目指しており、今後どの方向を強化しようとしているのかを示すとよいだろう。なお、実際のアプリケーションを組み立てていく上では、リズムのとりやすさや予備動作の学習のことを考えると、おそらく分割点の少し前（1拍?1小節）から再生するのが便利ではないかと想像する。そうしたことも今後議論に加えていくとよいのではないか。

査読者3

総合点

4: どちらかと言えば採録

確信度

2: やや専門からは外れる

採否理由

本論文はダンス動画の自動分割アルゴリズムの提案とデータセット作成のためのツール・アプリケーション作成を行なっています．初心者でも簡単にダンスの分割が行うためのツールは非常に有用で，既存のツールでは手動で行なわれていた作業を半自動にした点で新規性があると言えます．しかし，使用されているアルゴリズムと評価には以下の疑問があります．まず，使用されているアルゴリズムでは，聴覚特徴量としてメルスペクトログラムをそのまま入力としていいる，と書かれています．しかし，図3の正解分割地点を観ると，使用されている音楽の小節で区切られているように見えます．使用音楽からリズム抽出を行い，節の区切り目だけ注目する，もしくは重みづけを行うアルゴリズムでは不十分なのでしょうか．本論文の評価に関しては議論が不十分であるように見受けられます．例えば，評価結果の表1にある適合率・再現率は初心者にとって十分なのでしょうか．また，図4（b）のダンス分割で生じた問題への具体的な解決策の提示されていません．以上の点を踏まえて，総合点は4点とします．

この研究をよくするためのコメント

本論文の対象は「ダンス」と一般化されていますが，既存のダンス分割システムを包括する内容なのか，記述が欲しいです．例えば，関連研究に出ているような日本舞踏に適応しても使えるのでしょうか．ツールを評価する評価実験として，既存の手動分割システム（MoveOn等）と比べてみてはいかがでしょうか．

査読者4

総合点

3: どちらかと言えば不採録

確信度

2: やや専門からは外れる

採否理由

本論文の題目は「振りの理解を助けるための～」となっていることから，「振りの理解」とは何で，提案手法はそれを助けているか否かが焦点になると考えましたが，それを読み取るのが困難でした．「振りの理解」を最大限促す「適切な」分割というのは，正解が唯一存在するものなのか，人ごとに解釈が異なるものなのか，ユーザの好みやスキルに応じたものなのかがよくわかりません．第一著者が手動で分割位置を指定した学習データについては，ダンス経験の長さからある程度信頼できるものだろうと思いはするのですが，上記についての説明や考察がない状態では，ダンス経験の長さだけで説得力を示せるものでは無いと思います．もちろん，学習データの信頼性については7章でも言及されており，「提案モデルによる分割の結果をダンス初心者や熟練者が手動分割した結果と比較する」展望が述べられていることから，ちゃんとした性能評価は今後明らかにされるということなのかもしれません．そう考えると，たしかに学習データ作成ツール・ダンス学習支援システムともに「便利」なツールが紹介されているものの，その有効性はまだ不透明だと言えます．また，本稿が明らかにした知見がもし「ダンス動画の分割において，提案手法の視覚・聴覚特徴量の両方が役立つこと」ぐらいだとすると，それほど大きなものではないと感じられてしまいます．