査読者1

(Primary)レビューサマリ

本研究は,既存のDeep Researchに対してユーザが能動的に探索に介入できるインタラクション手法を導入し,タイル型UIを通じて段階的な探索や深掘りを可能にした点に意義がある.従来の一方向的な調査プロセスを緩和し,人間とAIエージェントが協調的に調査を進められる新しい枠組みを提示しており,コミュニティへの貢献は大きい.32名の参加者による比較実験では,網羅性や効率性において有意差が確認され,少なくとも査読者自身が「使いたい」と思えるほどの有用性を備えている.

有用性の観点では,ユーザが途中で選択や方向転換を行いやすくなった点が強みであり,効率性や網羅性の向上も実験で裏付けられている.一方で,実験参加者が企業内データアノテータに限定され,Deep Researchの利用経験者が多かったことは外的妥当性を制限している.また,提示された選択肢を選ぶことによる選択支持バイアスの可能性もある.さらに,どの機能が特に有効だったのかの分析が不足しており,Deep Researchが将来的に大幅に高速化した場合でも本システムの利点が残るのかという点は議論が必要である.この辺りの指摘については,予め想定されているユーザー層について言及しておくと,妥当性について説明可能となる.

正確性・記述の質に関しては,全体的に論理構成が明快で読みやすく,完成度は高い.32名を対象としたユーザ実験の方法と結果も妥当であるが,「すべての指標で提案手法が上回った」と記述されているが,誤り率や品質については差が小さかった点を正しく補足する必要がある.加えて,定量評価のみに依存せず,定性評価の振り返りを充実させることで,結果の説得力がさらに高まる.

総合すると,新規性は既存手法の拡張に留まるものの,有用性は高く,記述も丁寧で完成度の高い研究である.誤り率を低減するためのUI設計や,評価手法の多角化(定性評価の補強を含む),ユーザ層の拡大などが今後の課題として期待される.本研究は十分に採録に値すると判断する.

(Primary)採録時コメント

本研究はDeep Researchにタイル型UIによって従来の一方向的な調査プロセスを緩和し,人間とAIエージェントが協調的に調査を進められる新しい枠組みを提示しており,コミュニティへの貢献は大きい.32名のユーザー実験で本手法の網羅性や効率性の向上が確認された.以上の理由から,再録と判定された.

(Primary)論文誌として必要な改善点

- p.1、p.5に文章がはみ出ている箇所があるので要修正.
- 和文アブストラクト・和文著者名が未設定のため要追記.
- 誤り率・品質では有意差が小さい点を明記する.
- 参加者層の偏りを明記し,外的妥当性の限界を議論.
- 定量評価に加え,定性評価の振り返りや有効な機能の分析を補強.
- Deep Research高速化後の有効性についての将来展望を追加.

総合点 (1: 強く不採録~6: 強く採録)

5

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

本研究は、既存の Deep Research に対して「ユーザが能動的に探索に介入できる」新しいインタラクション手法を導入し、その有効性をユーザ実験を通して検証した点に意義がある。特に、タイル型 UI による段階的な探索・深掘り機能は、従来の一方向的な調査プロセスの制約を緩和し、人間と AI エージェントの協調的なリサーチ体験を可能にした点で評価できる。また、32 名の参加者による比較実験において、効率性・網羅性・ユーザ負担の軽減といった観点で従来手法を有意に上回る結果を示しており、コミュニティにとって有用な知見を提供している。

新規性の観点では「既存システムにインタラクティブ UI を追加した拡張」に留まるため突出して高いとは言えないが、研究を実装レベルまで仕上げ、実用的に利用可能な形で評価した点は大きな強みである。一方で、提示結果のタイル表示は情報整理の方法として新奇性に乏しく、UI デザイン上の工夫(例:階層構造の可視化や情報のリランキング、誤情報検出を促す仕掛けなど)に独自性が出せれば、さらに研究としてのインパクトが高まったと思われる。

有用性については非常に高く評価できる。実装内容が詳細に報告されており、再現性がある点は学術的にも重要である。応答性に関しては動画で報告されており、体験可能なインタラクションの雰囲気が伝わる。ただし、実際のスピードで記録されたものか早送りで編集されているかが明記されていない点はやや不透明であり、論文中に補足があるとより良い。

評価実験については、参加者が企業内のデータアノテータに限定されており、しかも Deep Research を既に利用した経験者が多かった点は、外的妥当性や公平性の観点からやや気になる。対象ユーザ層を広げた追加実験があると、結果の説得力がさらに高まると考えられる。

細部についてもいくつか改善点がある。

ベースラインで実装した UI の具体的な操作フローが十分に説明されていない。

多くのユーザが慣れている既存の Deep Research 実装をなぜ比較対象から外したのか明確にされていない(学習効果を避ける意図かもしれないが、本文で触れるべき)。

ベースラインで二通りの方法(章の追加と複数回調査)を導入した経緯の説明が不足しており、評価設定の理解が難しい。

さらに、本文中では「エージェントの精度が向上すれば有用性も高まる」と述べられているが、ハルシネーション問題が存在する以上、誤り率を低減するための UI デザイン(出典強調、ユーザによるファクトチェック支援、重要情報の確証度表示など)についても議論があると、研究としての完成度がさらに高まると感じた。

総合すると、本研究は完成度が非常に高く、提案内容も明快で論文は丁寧にまとめられている。新規性はそこそこだが、有用性と記述の質の高さを強く評価し、採録に値すると判断する。

改善コメント

採否理由の記述とも重複するが、 実験の詳細についていくつか追記してほしい。具体的にはベースラインで実装した UI の具体的な操作フローの説明や、Deep Researchを比較対象から外した理由、そして実験の際にグループをどう分けたか(順序効果の対応)、など。さらにベースラインで二通りの方法(章の追加と複数回調査)を導入した経緯があると良い。

結果の部分で、「すべての指標において、提案手法がベースラインを上回った。」とあるが、誤り率と品質においては大きな差がみられなかった点は強調してほしい。

査読者2

総合点 (1: 強く不採録~6: 強く採録)

5

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

Deep Researchを使って能動的にユーザが探索するための提案としてタイルの仕組みを導入している。
これによりユーザが途中で選択や方向展開を行いやすくなり、選択・深堀り・方向展開など探索を能動的に行うことが可能になる。

ユーザ実験も32名に行っており、提案システムが優れていることが明らかになっている。

以上の点から採択と判断した。

改善コメント

p.1、p.5に文章がはみ出ている箇所があるのでご確認してください。

査読者3

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

LLMによるDeep Researchにおける一つの問題を、探索を依頼したのちに探索結果がでるまでに少なからぬ時間を要し、また、結果に満足しなかった場合は当初の探索依頼からやり直す必要があることであると主張する。本研究は、この問題を探索を好みをインタラクティブにDeep Research反映する能動的探索を導入することによって解決しようとしている。

本論文は、システムが完成していること、また、そのシステムを利用したユーザ実験を完了していることである。また、そのユーザ実験の方法と結果も妥当性のあるものとなっている。システム自体もビデオを見る限りはよくできており、少なくとも査読者は使いたいと思えた。

査読者の疑問は以下の通りである。
1) ユーザ層が明確でないこと。本研究では少なくとも実験においては一度はDeep Researchを使ったことがあるものが32名中、21名などと記載されているものの、どの層を想定しているのかが明確でない。すなわち探索から結果を得るまでに時間を要するなどという、Deep Researchの問題を把握しているユーザであれば、探索計画を工夫するなどによってそもそも満足のいく探索を行なっている可能性がある。どのようなユーザをターゲットとするのかを明確にした方が良い。

2) 選択支持バイアスの導入についての議論を要する。本研究においては網羅性の高いレポートを効率的に低負担で生成できることが貢献となっている。レポートの評価では定量評価においては網羅率のみで向上が見られる。定性評価においては品質などにおいても差が見られる。これは、システムで提示された選択肢を選ぶことによって選択支持バイアスが働いている可能性を示唆するため、この議論が追加されると良い。

3) 機能のどの部分が有効だったのか、という議論が欲しい。例えば、本研究の一つの機能として提示された複数のトピックを並列に探索できることがあると思う。そういう意味では、システムを使わなくても、並列に探索する方略をユーザがとることは可能である。このシステムの機能のうち、どの部分が有効だったのかというような議論があると良い。

4) Deep Researchの速度が飛躍的に高まった時にもこのシステムは有効なのか。問題として、Deep Researchで探索をしたときに結果が返ってくるまでに時間がかかることを挙げている。これは技術的な制約であるが、改善される可能性がある。改善された時にもこのシステムは有用なのか、について議論されたい。

そのほかのコメント:

3.3のプロトタイプUIの部分について、わかりにくい記述があるのでこれを改善して欲しいです。特にタイル型リサーチ画面という項は「上位トピックを持つタイルは、そのセクションの節として調査が開始される」というのは理解が難しかったです。図を追いながら理解できると良いと思いました。

改善コメント

使いたいと思えるシステムでした。採録となったときは、ぜひ登壇発表デモにも出していただいて、議論ができると良いと思います。

採否理由のところにも書いたのですが、今後、技術が飛躍的に向上してDeep Researchが高速化された場合も、このようなアプローチが有効なのかを考えていただきたいです。また、提案していただいているアプローチが機能する例はわかるのですが、機能しにくい例もあるような気がします。

査読者4

総合点 (1: 強く不採録~6: 強く採録)

5

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

新規性:
本研究ではDeep Researchにタイル型UIによる能動的探索という仕組みを導入し,既存システムの計画承認後は介入できないという課題を解決している点に新規性があります.

有用性:
プロトタイプを用いて32名のユーザ実験を行い,既存システムに対する有意な改善を示しています.網羅性や効率性において有意差が確認されており,有用なシステムであると評価できます.
評価も多角的な指標から行われており妥当だと思われます.ただし,議論されているようにLLMによる自動評価には限界があると考えられます.

記述の質:
全体的に論理構成が明確で,読みやすい論文となっています.

改善コメント

実験参加者が同一企業のデータアノテーターに偏っているため,一般ユーザや異なるバックグラウンドを持つ参加者を対象とした評価があると説得力が増します.

LLM-as-a-judge に依存した誤り率・品質評価は現状の限界があります.人手評価や専門家レビューを補助的に導入することで,レポート品質に関する議論をさらに強固にできると思われます.