査読者1
(Primary)レビューサマリ
(Primary)採録時コメント
(Primary)論文誌として必要な改善点
総合点 (1: 強く不採録~6: 強く採録)
確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)
採否理由
改善コメント
査読者2
総合点 (1: 強く不採録~6: 強く採録)
確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)
採否理由
改善コメント
査読者3
総合点 (1: 強く不採録~6: 強く採録)
確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)
採否理由
改善コメント
査読者4
総合点 (1: 強く不採録~6: 強く採録)
確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)
採否理由
改善コメント
有用性の観点では,ユーザが途中で選択や方向転換を行いやすくなった点が強みであり,効率性や網羅性の向上も実験で裏付けられている.一方で,実験参加者が企業内データアノテータに限定され,Deep Researchの利用経験者が多かったことは外的妥当性を制限している.また,提示された選択肢を選ぶことによる選択支持バイアスの可能性もある.さらに,どの機能が特に有効だったのかの分析が不足しており,Deep Researchが将来的に大幅に高速化した場合でも本システムの利点が残るのかという点は議論が必要である.この辺りの指摘については,予め想定されているユーザー層について言及しておくと,妥当性について説明可能となる.
正確性・記述の質に関しては,全体的に論理構成が明快で読みやすく,完成度は高い.32名を対象としたユーザ実験の方法と結果も妥当であるが,「すべての指標で提案手法が上回った」と記述されているが,誤り率や品質については差が小さかった点を正しく補足する必要がある.加えて,定量評価のみに依存せず,定性評価の振り返りを充実させることで,結果の説得力がさらに高まる.
総合すると,新規性は既存手法の拡張に留まるものの,有用性は高く,記述も丁寧で完成度の高い研究である.誤り率を低減するためのUI設計や,評価手法の多角化(定性評価の補強を含む),ユーザ層の拡大などが今後の課題として期待される.本研究は十分に採録に値すると判断する.