査読者1

(Primary)レビューサマリ

実装とワークフロー設計には明確な価値があり、WISSでの議論も期待できます。一方、性能・安定性に関する報告が欠けており(評価実験を強いるものではないです)、また、新規性の位置づけ不足は看過できないため、採否判定会議では、以下の条件付きで採録となりました。

- LLM/VLM登場以前のプログラミング環境に関する関連研究は豊富に存在します。これらを引用し、技術的新規性を位置づけ直してください。コーディング支援だけでなくデバッグ支援にも言及してください。
- ユーザスタディの結果得られた仮想センサが表2.などで表面的にしか言及されていません。また、IDEである点が強みとされるのに、得られたプログラムに関する言及が不足しています。本文を改稿すれば半ページは空けられるはずなので、何ができて、何ができなかったのかをより詳細に議論してください。
- 全体を通して著者らと同じドメイン知識を有する人を前提とした記述(e.g., 「はじめに」の「以降はpostMessageにより…」)になっており、説明が説明になっていない個所もあり(e.g., 同「パッシブな…であるため,能動的に…」, 6.3「string型のセンサを意味空間上における多次元の測定として…」)、細かい表記ゆれも多くみられる(e.g., Name or name, float/boolean/string or float/boolean/string)ため、RevID:147の指摘をよく読み、用語の初出箇所での丁寧な説明や定義づけを行って完成度を向上してください。

(Primary)採録時コメント

本研究は,VLMによる動画像内容理解を型付きデータフローの出力を持つ「センサ」として一般化し,これを用いたプログラミングを支援する統合開発環境VL-SensorIDEを提案するものである.既存研究Gensorと比べ,値の型が多様化し,コードエディタも統合したプログラミング体験を実現している点,多様な実例を報告している点で異なる.実世界入出力で課題となるデバッグ支援が弱く技術的新規性が乏しいなど懸念はあるものの,WISSでの活発な議論が期待されることから条件付き採録と判定された.

(Primary)論文誌として必要な改善点

採否理由・改善コメントを参照のこと。

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

3

採否理由

本研究は、VLMによる動画像内容理解を型付きデータフローの出力を持つ「センサ」として一般化し、これを用いたプログラミングを支援する統合開発環境VL-SensorIDEを提案するものである。

VLMによる動画像内容理解は強力であり、これをプログラム的に扱う研究として引用されているGensorでは理解した結果を真偽値(boolean)とその理由(string)のペアで取得できる。
本研究ではセンサから得られた値の型が float, boolean, string から選べるほか、値を変数として参照できる簡単なプログラムを書けるコードエディタも統合した開発環境を提案している点で異なる。
プロトタイピング用途で有用性が高い一方で、短いコードでは実装が難しいアプリケーションに関しては、別途、通常の統合開発環境を用意して開発し直す必要があるように思われる。

論旨は明確で、評価実験でも多様な実例が得られており読みごたえがある。全体として、関連研究がポストAI時代のものに偏っているが、有用なシステムが実装され、評価実験で興味深い知見が得られていることから、ワークショップ論文としては採録相当と判断した。

改善コメント

主に関連研究について改善コメントを記載する。

「VLM以前」のプログラマ向けの動画像処理プログラミング支援という観点では、サンプルデータやアルゴリズムをGUIで指定することで classifier のプロトタイピングが容易なEyepatch(https://hci.stanford.edu/research/eyepatch/, UIST 2007)や、機械学習のアルゴリズム実装とデータ管理・分析を支援する統合環境Gestalt(https://dl.acm.org/doi/10.1145/1866029.1866038, UIST 2010)、多様な入力動画像ソースに対しビジュアルプログラミングによるプロトタイピングと文字ベースのアルゴリズム実装とを行き来できるVisionSketch(https://junkato.jp/ja/visionsketch/, GI 2014)などの関連研究があり、これらを踏まえてインタラクションの新規性を説明するとVLMならではの特徴も浮かび上がって、より完成度が高まるだろう。

また、本研究ではあくまで開発のみを支援しているが、実世界由来のデータを扱う開発ではデバッグが難しい一方で極めて重要であり、実際、応用事例で紹介されているスクリーンショットはいずれもデバッグ用インタフェース相当のものが多い。関連研究として、センサ入力のデバッグを支援するExemplar(https://hci.stanford.edu/research/exemplar/, CHI '07)や画像処理アルゴリズムのデバッグを支援するDejaVu(https://junkato.jp/ja/dejavu/, UIST '12)などがあり、これらを踏まえて議論を深めるとよい。

査読者2

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

・新規性・有用性:既存のコーディングとVLSを組み合わせることで、従来であれば画像などからアルゴリズムによって変換するためのサブルーチン部を、プロンプトで生成、コード内にドラッグアンドロップで組み込むという、新しいインタラクション開発環境を提案している。リアルタイムに出力結果を確認しつつプロンプトをチューニングできる点、プログラムへの組み込みが容易な点から使ってみたいと思わせるシステムになっている。実際にはプロトタイピングで使用→本格的な開発時はプログラムに書き起こすのだろうが、その書き起こしもある程度自動生成してくれそうな期待がある。

・正確性:手法は面白い一方で、その制約についても十分に議論されている。

・記述の質:同図cのように、一意に定まりにくい表現が見られますので、図2cのように変更してください。

改善コメント

既存のコーディングとVLSを組み合わせることで、従来であれば画像などからアルゴリズムによって変換するためのサブルーチン部を、プロンプトで生成、コード内にドラッグアンドロップで組み込むという、新しいインタラクション開発環境を提案している。

リアルタイムに出力結果を確認しつつプロンプトをチューニングできる点、プログラムへの組み込みが容易な点から使ってみたいと思わせるシステムになっている。実際にはプロトタイピングで使用→本格的な開発時はプログラムに書き起こすのだろうが、その書き起こしもある程度自動生成してくれそうな期待がある。一方で、実用化にあたっては本研究の実装では精度や再現性の観点から不十分な可能性について議論していない点が気になる。

同図cのように、一意に定まりにくい表現が見られますので、図2cのように変更してください。

53種、53件のように表記ゆれがあります。

査読者3

総合点 (1: 強く不採録~6: 強く採録)

4

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

1

採否理由

本論文では、Vision-Language Modelを仮想センサとして扱うIDE(VL-SensorIDE) を提案しています。プロンプトで複数の型のセンサを定義し、IDE内で変数として利用可能になっています。実験評価で短時間に多様なセンサを作成できることが示され、具体的な応用例として作業環境のモニタリングや行動追跡、TUIコントローラといった事例が実現されています。

- 新規性について
VLMをセンサのように扱う研究自体は存在するものの、型付きの出力を定義し、それをIDE内で容易に利用可能なワークフローを示した点は明確な新規性のように思われます。従来の固定ラベルや特定タスクに限定された手法と比較して一般的に適用可能な手法を実現しています。

- 有用性,正確性について
著者らが述べるように推論処理に起因するレイテンシや出力のゆらぎといった課題はあるものの、VLMを活用したアプリケーション開発に向けて説得力のあるワークフローを提示しており、プロトタイプ実装と実験を通してシステムの有用性は十分示されているように思われます。

- 論文の記述の質について
全体としてよく構成されており、図表も適切な体裁で作成されているように思いました。

改善コメント

再現性、信頼性についての評価や、比較対象との定量的な比較が今後必要に思われました。たとえば作成したセンサの出力の揺らぎについて、また、実際に一般的なインタフェースを介してVLMを利用する場合と提案手法とを比較した際どのような得失があるのかについて、より詳細な議論が必要であると感じました。

査読者4

総合点 (1: 強く不採録~6: 強く採録)

2

確信度 (1: 専門外である~3: 自身の専門分野とマッチしている)

2

採否理由

概要:
VLM をユーザがプロンプトで再定義可能なら仮想センサとして扱い,コーディング環境と連携できるシステムを開発し,8名での実験を通して,多様なセンサを作成できる点を確認した.

コメント:
VLMと連携可能なIDEを実装して運用された点は評価できるのですが,「センサ」としての性能検証が(定性的にも)全く含まれていない点は大きな問題だと思います.

「53種類のセンサが作成された」と概要でも主張されていますが,これは単に「センサの定義」が作られただけであって,「センサとして使い物になるのか」,という議論はされていません.よりシンプルで具体的な事例として示されている5章(図5~7)にも,認識性能に関する議論は一切ありません.

WISSでは厳密な評価実験は求めていませんが,それでもセンサを提案している以上,(定性的でも)性能検証を行わないと,その価値を主張することは難しいと思います.

また,以下のように論文の質や新規性の記述にもやや問題があると感じられるため,総合的に見て不採録と判断しました.

◆新規性の記述に関する問題
- はじめにの冒頭でセンシングの問題を3点取り上げていますが,1点目はソフトウェアの設計の問題,2点目は画像処理を使えば解決される問題のように思われ,本研究と従来手法の差分とはいえないのではないかと思います.

- 2章で先行研究との差分として,以下のようにまとめて記述されていますが,結局どこが新規なのかが理解しにくいです.(文章自体もかなり分かりにくいです.)先行研究を分類して,それぞれの研究とはここが異なる,と明瞭に記述する必要があると思います.
「以上を踏まえ,本研究はfloat / boolean /string を同一フレームで扱う型付き出力と,プロンプトの書き換えだけで測定対象・基準を即時に再定義しIDE に直配線できる運用設計を組み合わせることで,固定ラベル・人力依存・タスク特化・分類器前提といった既存系の分岐を横断的に接続する.]

◆論文の記述の問題
- 論文全体として,技術文書(や直訳)のような表現が散見され,全体的に可読性が低いと感じます.明瞭に定義するか,一般的な用語に置き換えたほうが良いと思います.特に気になったのは以下のような表現です.
--型付き出力(float /boolean / string)
 ※何度も出てきますが,特に,「6.3 string 出力の位置づけ」の内容は理解が困難です.
-- 「責務が明確に分離された」
-- 「推論」「配信」「購読」
-- 「コード内のプレースホルダ」

改善コメント

- 図5,6,7は,入力画像とセットで提示しないと内容の理解が難しいと思います.