論文一覧に戻る

査読者 1

総合点

5

確信度

3

採否理由

ビブラートのデザインに着目し、「時系列編集(VOCALOID 4)」「プリセット選択+微調整(VOCALOID V)」「歌声入力(VocaListener)」「統計学習(Sinsy, CeVIO等)」の従来手法とは違った、ビブラート振幅と周波数を軸とした二次元マップによるビブラート制御を提案していて新しい(二次元マップの有用性を評価した研究はないと思います)。

技術的な記述に問題はなく、目標となるビブラートを再現する被験者実験によって、「時系列編集(VOCALOID 4)」と比較して有用性が確認された。
論文の記述もわかりやすく、採録される水準にあると考える。

この研究をよくするためのコメント

・可能ならば、ビブラートの作りこみがどれだけ求められているのか、その需要に関する記述が欲しい。ユーザはそもそもどういうビブラートやその操作を求めているのか。

・評価実験において「手本となるビブラート」が、被験者にどう呈示されたのかが不明。ビブラートの条件の数値を見せた?音を聞かせた?F0軌跡を見せた?
説明が必要だと思います。

・評価実験における従来手法の実装について、図などが欲しい。何がどう違うのかが視覚的な情報としてあるとわかりやすい。

・図1にはピアノロールが表示されているが、それがF0時系列からどのように決まるのか知りたい。

・リアルタイムでしか編集ができないような印象を受けましたが、正しいでしょうか?ライブで使ったり、おおざっぱな方針を決めるのに便利そうですが、これだけでは、細かな作りこみに向いていない部分があるのではないでしょうか?どこかでその点について説明があると良いと思いました。

採録判定時のコメント

本論文では、本研究は、歌唱デザイン(歌声合成におけるパラメータ調整作業)においてビブラートを高速・効率的に付与するための新しいインタフェースを提案し、評価した。XY軸にビブラートの振幅と周波数をマッピングして、リアルタイムに(合成結果のプレビューをしながら)そのパラメータを変更できる。実装完成度が高く、適切に評価されていて登壇に適している。一方で、リアルタイムにビブラートパラメータを作りこむ需要や想定利用者が不明瞭であることから、ショート採択が妥当であると判断した。また、市販のボーカル補正ソフトウェアの類似機能に関する言及を追加することを採録の条件とした。

レビューサマリ

査読の結果、ショート採録(採録条件あり)と判定されました。

本論文の長所として、査読者から以下のような指摘がなされました。
 (1) 実装完成度が高く、音楽経験がなくても理解しやすいため、登壇に適している
 (2) 新規性がある
 (3) 適切に評価されていて有効性が示されている

一方で、市販のボーカル補正ソフトウェアに類似した機能を持つことが指摘されているため、
「ボーカル補正ソフトウェアについての言及を追加」
することが採録の条件です。

また、例えば以下のような指摘など、
 (1) デザインと合成プレビューを同時に行うことや詳細にビブラートを作りこむことの需要や、想定利用者について明確にすべき
 (2) 実験手順や考察等の説明が不足
論文をよくするための各査読者のコメントになるべく対応ください。

その他コメント

査読者 2

総合点

6

確信度

2

採否理由

== 新規性・有効性 ==

本研究は、合成音声を用いた歌唱コンテンツ制作においてビブラートを効率的に付与するための新しいシステムを提案し、評価している。類似の目標を持つ既存のシステムでは、パラメタの操作と合成結果のプレビューを同時に行うことができない。これに対し本研究では、実時間音声合成に対応した既存技術を採用することで、パラメタの操作と合成結果のプレビューを同時に行うことができる最初のシステムを提案している。ここでのパラメタとは時刻変化を伴うものであるが、本研究ではこれまでのシステムにない特有のインタラクションとして、performance-drivenなパラメタ設定(ここでは、ユーザが、コンテンツの再生に合わせて、パラメタをどう設定するべきかを実演するのを記録すること)を提案している。楽曲制作初心者を対象としたユーザ評価では、操作時間やユーザビリティにおいて、既存システムを模倣したベースラインよりも好ましい結果が得られている。

上述の通り、新規性・有効性ともにクリアである。デモ動画も分かりやすく、WISS聴衆で楽曲制作の経験がなかったとしても、十分なインスピレーションを受けることが期待できる。したがって、登壇発表に採択することを推薦したい。

しかし、以下に詳しく述べる通り、本稿にはいくつか問題点・弱点があると思われる(いずれも本研究の価値を下げるものではなく、採択を妨げるものではないと考える)。

== 問題点 ==

本研究の最も重要な新規性である「パラメタの操作と合成結果のプレビューを同時に行う」ことについて、これが有効である(またはユーザに所望されている)ということが非自明である(または著者らが立てた仮説である)にも関わらず、あたかも確定した事実であるように語られているのは問題である。ユーザ評価によって初めて根拠を得るものであり、「本研究の位置付け」(例:「タイムラグも問題となる」)、「必要な機能要件」(例:「機能が求められる」)等の書き方は修正する必要がある。

パラメタの操作と合成結果のプレビューを同時に行うことで、performance-drivenなパラメタ設定(この表現の是非は議論の余地があるが、意味するところは上述の通り)を実現していることが新規性である(と少なくとも現状の原稿からは読み取った)。しかし、このことが明示的に主張されていない(むしろ細かい調整を許すインタフェース(これ自体には新規性は認められない)の副産物として上述のインタラクションも実現するような書かれ方をしている)のは改善した方が良い。特に、概要では一切触れられていないのは追記した方が良い。

== 弱点 ==

このインタフェースはリアルタイム合成が可能な音声合成エンジンを必要とするため、VOCALOID等の音声合成エンジンには使用できない。

音声合成に対して上述のインタラクションを実現したことに新規性はあるが、インタラクションデザインそのものに新規性は認められない。身近な例では、iPad版GarageBandなどは、提案システムと同様に、2Dのパラメタ空間表示の内部をタッチしドラッグすることでパラメタの操作と編集結果のプレビューを同時に行いながらパラメタ設定をするインタラクションが搭載されている。

この研究をよくするためのコメント

(私の理解がもし正しければ、)上記の欄の通り、本研究の最も重要な貢献をもう少し明示的に主張したり、「必要であることは既知だったが実現していなかったものを実現した」のではなく「あると効果的であろうという仮説のもとで、実現し、検証した」という論理に修正したりすると、より良い論文になるのではないかと思う。

査読者 3

総合点

4

確信度

2

採否理由

本研究は、歌唱デザインにおいてビブラートを容易に付与するための手法についての研究です。

動画を見る限り、実装の完成度は非常に高く、使用方法も容易であることが伺えます。
また評価により、十分なユーザビリティが確保されていることが確認でき、有用性が高い手法であると評価します。

一方で、いくつか課題もあると考えます。

(1)関連研究では歌声合成の手法にフォーカスされていますが、Auto-Tune、Melodyne、Waves Tuneなどのボーカル補正ソフトウェアの中には、ビブラートを自由にデザインできるものがあります(一部はリアルタイムに編集可能です)。
本提案では、歌声生成機能はなくビブラートのデザインに特化している以上、従来研究では取り上げるべきです。

(2)表 4で示されている数値が具体的に何であるかが明確ではありません。
文献[10]を見る限り、各特徴量の平均ではないかと推測できますが、文献[10]とは文言も異なりますので、(たとえば、「時間」=「vibrato duration」?)最低限の説明がほしいです。

(3)5.1有効さと満足度に関する考察では、
「Parrot と従来手法のインタフェースにより作られたビブラートパラメータは,ほぼ差が無いことから,同等のビブラートを作り込むことができたといえる.」

とありますが、この「ほぼ差がないことから」はどの部分で示されていますでしょうか?
仮に、表4の誤差の評価をさしているとすると、この結果だけでは
「同一の特徴を持つビブラートを作ることができた」ことは言えますが、
「同等のビブラートを作りこむことができた」までは言えないと思います。


総合的には、上記のうち(1)について言及されることを条件に、採録できる水準にあると判断します。

この研究をよくするためのコメント

・2つのパラメータを平面に配置するX-Yコントローラも一般に知られており、パラメータを割り当てれば、リアルタイム補正可能なボーカル補正ソフトウェアで実現できるため、手法そのものに強い新規性は感じられませんでした。
(少なくとも、下記の2つのソフトウェアではリアルタイムのビブラート付与が可能です)
Auto-Tune Live https://www.autotune.mu/products/auto-tune-live/
GSnap https://www.gvst.co.uk/gsnap_manual.htm

ただし、設定の手間や視覚表現・ユーザビリティなど、本手法の優位性がありそうですので、そのあたりが主張されるとよいと思います。


・4.4 実験手順には「楽曲制作経験によるバイアスを考慮するため,楽曲経験のない被験者で統一した.」とありますが、
2.6 本研究の位置付けの「本研究の狙いは,詳細なビブラートパラメータを効率よく作り込むことで歌唱デザインを省力する技術開発である.」を目的と考えるとミスマッチに感じられます。

本研究の「詳細なビブラートパラメータを効率よく作り込む」事を求めているのはどのような利用者なのか?を明確にした上で、被験者と差異を説明するか、もしくはfuture workで触れるなどするほうがよいと思います。

個人的には「詳細に」「効率よく」、作りこみたいというユーザは、これまでの手法を使い込んでいる人が多そうに思います。そのようなユーザーでの評価にも興味がありますので、今後の研究で明らかになるとよいと思います。