査読者1

(Primary)レビューサマリ

本研究は,楽曲推薦システムにおいて,歌声・伴奏・歌詞,という3つの要素において個別に「許容度」を設定することを可能にしたシステムです.レビュアの点は4,4,4,3と採録よりでした.ポジティブな意見としては,しっかり作り込まれていて,実装もあり,論文も丁寧に書かれているといったものがありました.一方で,ネガティブな点として,「許容度」は従来システムにある重要度と何が違うのかが分からない,提案システムに意味があったのか評価されていない(2名のケーススタディはあるが,従来研究との違いが明らかにならない),等があります.結果として委員会で議論した結果,意義について話して頂けそうと合意し,採択と判断されました..

(Primary)採録時コメント

本研究は,楽曲推薦システムにおいて,歌声・伴奏・歌詞という三つの要素それぞれに対して個別に「許容度」を設定できる新たな仕組みを提案したものである.システムの実装は丁寧で完成度が高く,論文全体も明快にまとめられており,レビュアは好印象であった.一方で,「許容度」と従来の「重要度」との概念的な違いが十分に説明されていない点や,システムの有効性を示す評価が限定的である点が指摘された.それを踏まえた委員会での議論の結果,WISSにおける議論を促す意義ある研究として評価され,採択に至った.

(Primary)論文誌として必要な改善点

・許容度の位置付けを明確にし,既存研究との違いをクリアにする.
・ある程度の人数で評価実験を行う.
・評価においては,許容度の存在がうまく働いているかをわかるようにする.

総合点 (1: 強く不採録~6: 強く採録)

3

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

3

採否理由

本研究は,楽曲推薦における「楽曲全体の好み」評価の限界に対し,歌声・伴奏・歌詞という要素ごとにユーザの嗜好と許容度を入力させ,その組み合わせで推薦する新しいUI「PrefTolerance」を提案しています.従来の内容ベース推薦は「要素横断の総合特徴」に寄りがちで,こだわり(低許容度)を反映しにくい,という考え方自体は賛同できます.一方で,従来研究においても,各特徴量毎に設定すること自体は可能で,それをしないのは,そもそも細かな要素毎に目的とする値と許容度をそれぞれ設定する,といったような煩雑なアプローチ自体に重要性を求めていないためと思われます.したがって,本研究は,アプローチ自体の新規性というよりは,そのような要素毎に「許容度」といったパラメタを設定することの価値があるのか,といったようなインタラクションモデルの有効性を示すことがその価値になりうると考えます.その観点で論文を評価した際,以下の点が懸念点となります.

・ MusiCubeのようなものや[12]のようなシステムもアイデアとしては存在しており,特に後者は,スライダにより重要視する属性を設定できるようになっている点で提案手法と極めて近い研究であると思われます.本論文では,「[12]は許容度というパラメタがなく,重要なものしか選べないのでダメ」といった書かれ方がされていますが,本質的には,重要度を低く設定されたものが許容度が広くなる,という考え方になるといえ,違いが明確に説明されていないように思います.つまり,本研究のコア部分のアイデアをちゃんと説明できていないように思います.

・ 上とも関係しますが,ケーススタディが,提案手法の有効性や既存研究との違いを明らかにするようなものになっていません.例えば,既存の「楽曲全体の好み」をベースとして推薦するものと比べて,ユーザに推薦される楽曲はよくなるのでしょうか.また,特徴量の重要度のみを設定するものと比べて,推薦楽曲はよくなるのでしょうか.査読者の予感では,ほぼよくならないのではないかと思うので,このケーススタディでは,少なくともそういった従来手法と比べてよさそうな部分が判別可能なテストをするべきだったのではないかと思います.現状のケーススタディでは,「このシステムはよさそうだ」と読者に思ってもらえる説得力が生み出せていないように思います.少なくとも,許容度を設定することに意味を感じたのかどうか,許容度を変えて起こったことに価値があると思ったかどうか,に関しては被験者に聞いて欲しいところです.

改善コメント

今回のパラメタの中に「歌声」がありますが,基本的には利用するデータは歌声合成コミュニティのものを使っているようです.歌声としての違いを本当にパラメタに含みたいのであれば,一般曲を含んだデータセットでやるべきではないでしょうか.

査読者2

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

新規性:
本研究は音楽要素(歌声・伴奏・歌詞)ごとに嗜好と許容度を導入した推薦を実現している点に新規性がある.特に許容度をスライダ操作で指定し,その影響を空間的に可視化するというインタラクション設計は既存研究との差分がある.

有用性,正確性:
個人の嗜好を反映できるため,従来の推薦に比べてユーザ体験が改善される可能性がある.音楽分野にとどまらず,他のメディア推薦にも展開できる応用可能性がある点は評価できる.ただし,ケーススタディは参加者2名に留まっており,効果検証としては限定的である.図8において許容度の変更の発生が少なく見受けられるが,これがシステムとして有効に働いているのか否かが判断できなかったため,想定される動きなのかどうかなどの議論があると良いと考える.

記述の質:
全体として論理展開は明確でわかりやすく書かれている.

改善コメント

許容度の導入がどの程度効果的なのか,許容度のない場合との比較実験などがあると,今後議論しやすいと考えます.

査読者3

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

楽曲に対する嗜好を歌声・伴奏・歌詞の3つの音楽要素に着目して、それぞれの許容度を入力して好きな曲を推薦するインタフェースの提案である。
音楽の要素がさまざまにある中で、なぜこの3つの音楽要素に着目したのかについて明らかではなく、説明があると良いと考える。

また、それぞれの影響範囲を指定できているが、それぞれの影響を相互に許容する楽曲の中から一番近いものは何か推薦してくれるとより便利かと思うが、総合のような探索空間を作ってあるとより便利かと思う。

システムは良く作り込まれているが、ケーススタディも2名しかなく、有用性についての評価も不十分と考える。
ユーザ使用時間を30分で区切ったのはなぜか。
満足度は6、5と高かったと述べてあるが何段階で聞いたのか記述がない。
許容度の変化など面白い知見が得られているがもう少し人数を増やして分析してはどうか。


以上の点からボーダーラインと判断したが、システムがよく作り込まれており、WISSで議論することでよりよいシステムになると判断して「どちらかといえば採録」と判断した。

改善コメント

上記にも記載しましたが、音楽の要素がさまざまにある中で、なぜこの3つの音楽要素に着目したのかについて記載があると良いと思います。

また、それぞれの影響範囲を指定できているが、それぞれの影響を相互に許容する楽曲の中から一番近いものは何か推薦してくれるとより便利かと思います。
総合のような探索空間を作ってはいかがでしょうか。
もしくは作らなかった理由(作ってみたが不便であったなど)があれば記載してあると良いと思います。

ケーススタディではユーザ使用時間を30分で区切ったのはなぜでしょうか。
満足度は6、5と高かったと述べてあるが何段階で聞いたのか記述がないので記載してはどうでしょう。
許容度の変化など面白い知見が得られているがもう少し人数を増やして分析してはどうでしょう。

WISSでは口頭発表で採択されたとしても是非デモを展示してより多くの人の知見と論文としての記載をブラッシュアップしていただけたら良いかと思いました。

査読者4

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

・提案されている内容の新規性(先行研究との差分が十分にあるか)

- 音楽要素ごとに嗜好を反映するような楽曲推薦インタフェースを作った点で、本研究は新規性がある。関連研究の中で要素ごとに本研究の位置付けがわかりやすく書かれていた。

・有用性(実際に役に立つか),正確性(技術的に正しいか)

- インタフェースとしてとても興味深いが、提案のコアである、音楽要素ごとの嗜好を反映する提案が、ユーザの満足度などにどのような影響を与えるかは評価では明らかにならなかった。
- 歌詞は文の埋め込みベクトル、歌声に関しては音楽特徴抽出モデルを使っているが、これらの特徴空間の距離と、嗜好の距離が一致しているとは言えない。そのため、この空間上でのマッピングにどの程度の妥当性があるかが不明である。(この論文というよりは、分野が抱えている課題かもしれない)。

・論文自体の記述の質(分かりやすく明確に書かれているか)

- 非常にわかりやすく書かれていた。論理的な構造がしっかりしており、先行研究に対する位置付けが特にわかりやすかった。

改善コメント

- 採択された場合に、学会発表でライブデモを少し見せることができれば、より活発な議論ができると思われる。
- 本提案手法と、従来手法である曲ごとの好き/嫌いを選ぶインタフェースと比較することで、本提案手法が良いことを示せるかもしれない。好きな曲に到達するまでの時間を評価する手もあると思われる。
- 特徴量の妥当性を上げるために:
- データセットの構築が非常に大変ではあるが、contrastive learningを利用して、嗜好を直接反映した特徴量を作るstraight-forwardな方法。
- 現状の特徴量が妥当であることを示すためのユーザ実験をする方法。
- 例えば、クラウドソーシングで距離が遠いものと嗜好からの遠さをユーザに主観評価してもらうなど
- 先行研究ですでに妥当性が検証されている手法を用いる