査読コメント (ID: 16)

査読者 1

総合点

確信度

採否理由

本論文は，2次元データに対するクラスタリング等の統計的分析手法の挙動を
確認・理解することを目的として，2次元の点からなるテストデータを散布図
上で対話的に作成する手法を提案しています．

このようなテストデータを対話的に作成できるようにするというアイデアは面
白いと思います．

一方で，本研究はアイデアをひとまず実装したという初歩的な段階に留まって
いると思います．それにもかかわらず，まだやっていないことをすでにやった
かのように主張する記述が論文中になされていることは問題だと思います．特
に以下の点が挙げられます．

- タイトルで「多次元データ分布を作成及び編集」と言っているにもかかわら
  ず，多次元データへの拡張は現状で構想段階でしかありません．多次元とい
  う主張は，タイトルだけでなく，概要，1節でも続いており，本研究では現
  状で2次元しか扱っていないことは，3節で初めて明らかにされます．誠実で
  ない書き方だと言わざるを得ません．(もし2次元を扱っていれば多次元を主
  張してよいと考えているのであれば，論文中にそのように明記してくださ
  い．)

- 1節の後半で「本システムを用いることで，実データを参考しながら仮の
  データ（テストデータ）を作成し，データ分析の傾向を事前に検証すること
  ができる」とありますが，それが実際になされたことを論文から読み取るこ
  とができません．

以下はコメントです．

- 4節で「統計的な分析アルゴリズムの「性質」を調査するにあたり，有効な
  データ分布である」とありますが，根拠を示すべきです．

- 多次元データへの拡張については，6節で述べられていますが，簡単ではな
  いと思います．特に本研究の手法は散布図をベースにしていますが，散布図
  が多次元データに対してどの程度有効なのかという視点が必要であると思い
  ます．散布図を多次元に拡張したものとして散布図行列がよく知られていま
  すが，本研究の手法と組み合わせるのは簡単ではなさそうですし，6節で参
  照されている論文[8]に至っては，parallel coordinatesをベースにしてい
  ますので，本研究の手法との関係は明確ではありません．そもそも多次元
  データの可視化自体が簡単な問題ではありませんので，2次元という性質に
  強く依存しているように見える本研究の手法が(3次元ならばまだしも)多次
  元へ素直に拡張できると理解することは困難だと思われます．「多次元デー
  タ分布を作成及び編集」と主張するのであれば，この点に関して十分な考
  察・論述が論文中でなされるべきです．

以上です．

この研究をよくするためのコメント

採録判定時のコメント

2次元データに対するクラスタリング等の統計的分析手法の挙動を確認・理解
することを目的として，個々のデータを選択して確率分布のパラメータ推定と
再生成を行うといった編集作業により，2次元の点からなるテストデータを散
布図上で対話的に作成するという手法には，一定の新規性と有用性が認められ
る．一方，投稿時の論文には，提案手法の適用範囲に関する主張の不適切さ
や，新規性と有用性に関連する記述の不十分さが認められたため，ショート採
録と判断された．

レビューサマリ

2次元の点からなるテストデータを散布図上で対話的に作成するというアイデ
アは新規性と有用性を感じさせるものです．

しかし，論文の内容は十分でないと思います．

まず，review 13が指摘する通り，タイトル，概要，1節で「多次元データ」と
主張しているにもかかわらず，現状では2次元しかサポートしていない上に，
このことが3節で初めて明かされるのは大きな問題です．第6節で多次元データ
への拡張について簡単に書かれていますが，この方法で素直に拡張できるとは
納得しがたいと思います．

また，review 14が指摘する通り，新規性と有用性を主張する上で不明瞭な記
述も含まれます．

以上の理由により，本論文を「ショート採録（採録条件あり）」と判定しま
す．採録条件は以下の5点です．

1. review 13を踏まえて，本論文のタイトル，概要，1節から，多次元データ
に関する主張を削除してください．(多次元データを引き続き主張するには，
提案手法(3節)，結果(4節)，利用例(5節)に関する大幅な書き換えが必要です
が，そのような大規模な改訂に関する再査読は行いません．)

2. review 14の採否理由にある「まず、1章において…」の段落を踏まえて，
複数の分析アルゴリズムの組合せに関する記述を十分に明確化してください．

3. review 14の採否理由にある「同様に、1章において…」の段落を踏まえ
て，提案手法の新規性に関する記述を十分に明確化してください．

4. review 14の採否理由にある「最後に、3章において…」の段落を踏まえ
て，システムに関する記述を十分に明確化してください．

5. review 14の採否理由にある「またその結果、4章の結果について…」の段
落を踏まえて，データ分布の有効性に関する記述を十分に明確化してくださ
い．

以上です．

その他コメント

査読者 2

総合点

確信度

採否理由

可視化を通して理解する必要があるような、統計的なデータ分析におけるアルゴリズムの性質理解、異なるアルゴリズムの比較、のための様々な性質をもったデータをGUI上で作成するという発想が新しい。
既存のきれいなテストデータを編集し理解に必要なノイズをGUI上で容易に加えることや、既存のライブラリを用いた関数呼び出しで作成したデータセットでは得られない複数の性質を持ったデータを視覚的に作成できる点が高く評価できる。
また示されている様々な事例からも、その有用性と汎用性の高さが理解できる。

この研究をよくするためのコメント

・全般的に図の参照の仕方を見直すこと。
・是非、Web上で利用可能にしてほしい。

・P2：Palaris [4]はタイポ。
・図２－１、図２－２：本文中での参照がない。
　　　　　　　　　　　また、図１、図２などのようにするのが一般的で図2.1や図2-1のようにはしない（他の図も同様）。
・図３－１：図はページをまたがない。
・図４－１：本文中での参照では図４となっている。他にも同様のものがある。
・図５－１（３）（４）に関する本文中での説明がない。

査読者 3

総合点

確信度

採否理由

散布図を対象として、個々のデータを選択して確率分布のパラメータ推定と再生成を行うといった編集作業が行えるインタラクションは興味深く、新規性および有用性があると感じます。

一方で、新規性と有用性を主張する上で、論文の記述が一部不明瞭だと感じました。

まず、1章において「複数の分析アルゴリズムを組み合わせる場合が多く，ユーザは個々のアルゴリズムのみから，複合された手法の挙動を予測しなければならなかった」とありますが、提案されたシステムで、複数の分析アルゴリズムを切り替えて使えそうだということは想像できますが、どう組み合わせることができるのかが分かりませんでした。従来、複数の分析アルゴリズムを切り替えて可視化することができるツールとしてはWekaがあり、Wekaではフィルタリングとクラスタリング等を組み合わせられたのではないかと思います。

同様に、1章において「また，データ分析の際には，一部のデータしか手元になく，データ分析自体行うことができない場面が存在する．このような状況下において，これまでは，データが揃うまでユーザは待つことしかできなかった．」とありますが、深層学習における data augumentationや、「Taranta II et al., "A Rapid Prototyping Approach to Synthetic Data Generation For Improved 2D Gesture Recognition," Proc. UIST 2016」など、分析アルゴリズムの開発等を目的として、パラメータが既知の人工データを生成・合成することは良くあることではないかと思います。特に、「Matejka and Fitzmaurice, "Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing," Proc. CHI 2017」は、本研究と関連性が深いと思いますので、引用した上で新規性を主張すべきだと思いました。

最後に、3章においてシステムができることが不明瞭です。例えばデータ削減機能で「正規分布を仮定し」等という記述があり、エアブラシ機能で正規分布と一様分布の記述があるので、おそらく、使える確率分布はこの二種類なのかと想像します。一方で、クラスタリング手法については、バケツ選択機能においてDBSCANとk-means 法の記述のみがありますが、5.1などではWard 法を用いた階層的クラスタリングという記述もあり、システムの全貌が不明瞭だと感じました。全ての確率分布やアルゴリズムが使えるわけではないと思いますので、システムの有効性・拡張性・限界等の議論などのためには、できることを具体的に明記していただければと思います。

またその結果、4章の結果について、これらのデータ分布をどうやって作成したのかが不明で、有効性を正しく評価しにくいと感じました。例えば、図3-1は全て一様分布と正規分布のみで作成したのでしょうか？さらに、「統計的な分析アルゴリズムの「性質」を調査するにあたり，有効なデータ分布である」とありますが、これらが「なぜ」有効なのかを、エビデンスとともに示していただく必要があると思います。

この研究をよくするためのコメント

「採否理由」に書いたような改善を希望します。

また、可視化に関しては以下の論文が、散布図の見た目を変えたりマウスクリックによるインタラクティブな性質を持っていて、一部関連するのではないかと感じました。

[a] Arvind Satyanarayan, Dominik Moritz, Kanit Wongsuphasawat, Jeffrey Heer
"Vega-Lite: A Grammar of Interactive Graphics"
IEEE Trans. Visualization & Comp. Graphics (Proc. InfoVis), 2017.

[b] Kanit Wongsuphasawat, Zening Qu, Dominik Moritz, Riley Chang, Felix Ouk, Anushka Anand, Jock Mackinlay, Bill Howe, Jeffrey Heer
"Voyager 2: Augmenting Visual Analysis with Partial View Specifications"
ACM Human Factors in Computing Systems (CHI), 2017.