査読者1

(Primary)レビューサマリ

本研究では,管楽器のロングトーン練習を対象に,音量・音程・音色の3点を解析して可視化し,LLMで自然言語フィードバックするシステムを提案しています.
各査読者のスコアは4, 3, 4, 3となっています.査読者間のコメント/議論および判定会議での議論を踏まえて条件付き採択と判定いたしました.
以下3点を採択のための条件といたします.

1. 新規性・貢献の明確化
関連研究などで,既存研究と比較して本研究の立ち位置を明確に示してください.現状では先行研究の羅列になっており,先行研究と比較した際の本研究の立ち位置が明確には読み取れませんでした.
特に,Yoritaらの研究[21]においても音量・音程・音色の3点を可視化しています.さらに本研究で用いた音色とそれに対応する人間の印象もYoritaらの研究がもとになっています.
これらの先行研究と本研究の差分を明示し,新規性・貢献を明確にしてください.

2. 評価方法の妥当性/制限の追記
本研究の評価では,自己解釈とあっているかどうか,という軸で評価を行っています.しかし,練習支援システムとしての評価軸としての懸念が指摘されています.特に初心者にとっては自分では気づけない部分をシステムが指摘してくれるということがあり得るかと思いますので,自己解釈とあっていなくても支援システムとしては適切という場合もあるかと思います.
今回の評価方法が妥当であるのならばその理由を,今回の評価の制限であるのならその点についての議論を追記してください.

3. 音色スコアの妥当性
音色スコアについて以下2点の指摘があります.これらについて妥当性もしくは制限として議論を追記してください.
- 音色安定性スコアは「同じクラスタに属していれば高得点」という設計になっており,望ましくない音でも安定していれば高評価になる可能性があるのではないか(Rev127).
- 音色のクラスタが変化する原因が音程の揺れによるものか,実際の音色変化なのかを判別できないのではないか(Rev130).

その他,各査読者の指摘についても軽微で対応可能なものについてはご対応お願いいたします.

(Primary)採録時コメント

本研究では,管楽器のロングトーン練習を対象に,音量・音程・音色の3点を解析して可視化し,LLMで自然言語フィードバックするシステムを提案した.
倍音構造に基づく音色クラスタリングをLLMと組み合わせて自然言語フィードバックするという点,アプリとして実装できている点,10名の奏者を対象にしたユーザ調査により評価されている点が評価された.
一方で,先行研究との差分が明示的ではない点,評価方法や音色クラスタリングの妥当性に関する懸念が示された.
以上の理由から,条件付き採録と判定された.

(Primary)論文誌として必要な改善点

- 新規性・貢献の明確化
- 本研究と関連研究との位置付けの明示
- モチベーションの維持という点を主張するのであればそれを裏付けるような評価
- 評価方法の検討.自分の解釈とあっているかという聞き方は練習支援システムとして妥当なのか.
- クラスタリングして可視化という方法で望ましい音色の習得に役立つのかの検討
- LLMを用いることの意義の明確化

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

新規性:
音色の倍音成分をクラスタリングし,その特徴をLLMで自然言語化する点は,既存の可視化支援システムには見られない独自の貢献である.

有用性:
実際のフルート奏者10名を対象とした評価実験により,提案システムの妥当性と有用性が定性的・定量的に検証されている.音楽教育現場への応用可能性が高く,特に自己練習や独学者への支援としての波及効果が期待できる.
一方,現在の音色安定性スコアの算出方法だと,望ましくない音色でも安定して鳴らせていれば最頻クラスタとなり,高得点になるのではないかと考えられる.

記述の質:
3.1節で一例を示す図とともに説明があれば,よりわかりやすいと思われる.

改善コメント

3.1.4で「Watanabらの「Suiview」[6]」とありますが,参考文献[6]をみると著者が抜けているようです.また,タイトルも途中で切れているように見えますのでご確認ください.

現在の音色安定性スコアの算出方法だと,望ましくない音色でも安定して鳴らせていれば最頻クラスタとなり,高得点になるのではないかと考えますが,これに関する議論があると良いと考えます(実用上問題ない/こういう対応が考えられるなど).

査読者2

総合点 (1: 強く不採録~6: 強く採録)

3

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

3

採否理由

本論文は,管楽器におけるロングトーン練習を対象に,音量・音程・音色を解析して可視化し,LLMで自然言語フィードバックを提示するWebシステム「PracToneVis」を提案しています.音量や音程をフィードバックして練習に活かすシステムは多数あり,特に,提案システムは,関連研究にある森下らのシステムとビジュアライズは酷似しているため,「音色」という要素を加えたことの価値,という点がこの研究の独自性にあたる部分になると考えられます.音色の可視化手法に関しては一定の納得感があり,10名の被験者(経験者)に対して評価実験を行っているところも好感がもてます.

一方で,音色として「倍音成分をPCAしてクラスタリングした色」で示す,ということが,狙った音色の習得に役に立つのか,という点に関しては不明瞭で,これをどう練習に活かしながらシステムを使うのか,といった点が記述されていないためアプローチ自体の有用性もよく分かりませんでした.評価に関しても,使い方が不明瞭なため,この評価で何を主張したいのか,がわかりません.例えば,図3の結果に関してですが,「自分の解釈とあっているか」という聴き方をしてしまっています.このとき,C,Dは「倍音構造の説明」が入ってしまうということは,被験者自身が倍音構造を聞き取れていない場合(おそらくほとんどの場合音を聞いただけで倍音構造バランスは聞き取れないと思います),自分の解釈とあっているとは言えなくなってしまうのではないかと思います.つまり,自分の解釈能力より高度なことを言われた場合,自分と一致しているかどうか,では評価が低くなってしまうのは当たり前で,かといって,その出力が悪いかと言えばそうではなく,自分には知覚できなかった部分の事実を使って説明してくれる方が教育(練習)にはいいのではないかと思います.つまり,練習支援のシステムにおいて,指示の結果が自分の解釈と一致しているかどうか,という評価軸は,システムの評価としては正しくないのではないかと感じました.

また,これもかなり気になる点ですが,音程の不安定さと音色は独立なのでしょうか.今の処理方法だと,音程が不安定に揺れる場合は本質的な音色が同様でもクラスタが増えてしまうように思います(音色がなんなのか,という議論になってしまうかもしれませんが).とすると,結局音色を入れる意味はそれほどなくて,音程と音量の可視化(従来研究で可視化されてきたもの)で得られる情報以上のものが得られていないのではないかと思いました.同じ音程の安定度で,音色だけが違う,といった場合と,音程が揺れているから音色が違う,という場合をちゃんと区別できているのかが気になりました.

つまり,音色の要素を入れることが研究の主題である一方で,それを何のためにやるのか,という点と,評価した指標がずれており,結局音色の要素が練習にどのように寄与するのかが分からないままに論文が終わってしまっているように思います.LLMの出力に関してもいくつか具体例がほしいですが,その具体例があったときに,それが何に使われるのか次第で,フィードバックのデザインが変わるはずです.音色はなんのために使われて,そのためにはこういうことを理解させる可視化が必要で,それが達成されたかどうかがわかる実験をする,という流れになっていれば,本論文はとてもわかりやすいものになると思いますが,現状そうなっていません.

改善コメント

・図2の音色部分のグラフの縦軸はなんなのでしょうか.

・どのようなロングトーン録音であったのかが正確にはわかりませんでしたので追記頂けるといいと思います.一般にはロングトーン練習は,複数音をスラーでつないだようなものだと思いますので,1オクターブ分だとすると,すべての音をつないだ音を録音するのかなと思ったのですが,一方で,各音を録音する,といった記述もあり,音を変化させずに単純に長い音を1つだけ採るという作業をしたようにも見えます.図2を見ると,前者のように変化をつけているようにも見えるのですが,結局判断がつきませんでした.

・音色とビジュアライズ結果の一致性に対する議論などは,https://shigeodayo.me/download/timtoshape/timtoshape_IUI2023.pdf あたりも参考になるのではないかと思います.

・LLMを使う価値がある出力になっているのか?に関しても少し疑問を持ちました.ルールベースで出力した方が安定性のある意味のある提示ができそうに思えました.なぜLLMを使うのかの説明がもう少しあるとよいと思いました.

査読者3

総合点 (1: 強く不採録~6: 強く採録)

3

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

1

採否理由

開発したシステムについて詳しく記述されていますが、本研究の新規性と貢献が論文からはあまりよく読み取れませんでした。分析結果を自然言語でフィードバックすること、音色クラスタを提示すること、音量・音程・音色・安定性をグラフで提示すること、あるいはそれらを組み合わせたこと等、どの点がこのシステムの新規性であるか具体的に明示してもらえるとよかったです。
また、関連研究での記述において、本研究との関連性がわかりにくい点がありました。2.1節の文献 [6] の説明文の「音色に関する情報や分析が十分に提供されているとは言い難い.」とは、具体的にどのような情報が提供されていなかったのでしょうか。また、「管楽器の演奏経験の有無と音色の識別能力には強い相関がある[5].そのため,音色を分類しただけでは,その特徴をユーザが正確に分類できるとは限らない.」で主張したい内容がわかりませんでした。「そのため」の前後の関係もわかりませんでした(初心者だと正確に分類できない、ということでしょうか)。このような欠点があるにも関わらずPracToneVisでも音色の分類を行ったのはなぜでしょうか(分類だけでは不十分なため自然言語出力を追加した、ということでしょうか)。

改善コメント

2.1節の文献[2,3]の説明文「さまざまな角度から示されている.」は、どのような視点から示されているのか、具体的に記述するとよいかと思います。
参考文献にて、文献 [6] の第一著者名が抜けています。

査読者4

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

本論文は,管楽器演奏におけるロングトーン練習を支援するため,音響特徴量の解析と大規模言語モデル(LLM)を活用した練習支援システムを提案している.音響分析とLLMを組み合わせた点は新規性があり,実験的に有用性を検証しようと試みている点は評価できる.

一方で,第2章は関連研究の列挙にとどまっており,本研究の比較や位置付けに関する議論が不足している.また,実験はプロンプトの違いによる提示結果の主観的評価に限定されており,練習支援システムとしての効果検証としては不十分である.さらに,論文中で目的の一つに「モチベーションの維持」が挙げられているが,モチベーションに関する評価は実施されていないため,今後の課題として検討が望まれる.

以上より,評価を4とする.

改善コメント

上記採否理由にあるように,関連研究の整理,評価設計の拡充によって,研究の意義と説得力をより高められると考える.

マイナー:
図2の解像度が低く,文字が読みづらいので修正.