査読コメント (Paper ID: 17)

査読者 1

総合点

確信度

著者らは、対象カテゴリに十分な知識のないユーザが画像検索を行う際に、単語提示を介して画像による閲覧と単語による閲覧を統合した画像探索システムを提案しています。

検索対象に関する知識が不十分なために適切な検索キーワードが思いつかないのは検索における大きな問題点であり、提案システムのように画像情報と組み合わせることでユーザの検索意図をキーワードで表し、検索を支援することは非常に有用であると感じました。
査読者は画像検索の分野には十分に明るくありませんが、関連研究の章では過去数年以内に発表された研究も複数件参照して既存研究との差異を述べている点から、新規性は高いと判断しました。
単語提示アルゴリズムは技術的な貢献は高いとは言えませんが理にかなっており、選択した単語に応じた画像の配置も行っているなど、システムの有用性を高める工夫も評価できます。
定量的評価では、提案システムの優位性を検定結果に基づいて明らかにしている点を評価します。
実験に関しては、本実験におけるLDAのカテゴリ数をいくつにしたのかと、その理由が記述されていれば尚良いかと思います。

研究の内容に関しては非常に質が高いですが、一方で誤植が散見されました。
- 3ページ目：式(2)のXij'は単語TjとTj'に関する変数なので、Xjj'が正しい表記ではないでしょうか。
- 4.3節1段落目：「カテゴリ名表す」
- 6章1段落目：「提案システムはが探索中の」

以上の点から、誤植によるマイナスはありますが、本論文はWISSで発表するのにふさわしい論文であると判断しました。

採録判定時のコメント

画像とテキストを相補的に用いた画像探索を提案し、システムもしっかり作られています。提案方式の有用性を定量的・定性的に検証している点も評価できます。一方で、本研究のメインアイデアである、画像とテキストを用いたインタラクティブな画像探索の既存研究（複数あります）の引用がされておらず、研究の新規性が十分に示されていないため、ショート採録としました。誤字脱字も散見されるので、投稿前のチェックを十分に行って欲しい。

レビューサマリ

全体の構成：対象カテゴリに十分な知識のないユーザが画像検索を行う際に、単語提示を介して画像による閲覧と単語による閲覧を統合した画像探索システムを提案している。提案システムは、ユーザが選択した単語に応じた画像の配置も工夫するなど、よく作られている。実サービスのデータを用いて評価実験を行い、提案システムの優位性を検定結果に基づいて定量的に示している点、インタビューによりシステムの有用性を定性的に示している点は評価できる。改良に向けたコメント等：・関連研究の参照不足（2章）：著者らは、画像と単語の情報を別々に扱うことでインタラクティブな画像探索を実現する点に既存研究との差異を主張している。この点は本研究の核となるアイデアであるため、関連研究の慎重な調査が求められる。しかし本論文ではこの点に関する関連研究が引用されていない。関連研究としては、たとえば杉山ら[1]の研究があげられる。文献[1]では単語に基づいて画像を2次元空間に配置している。インタフェースとしてのアイデアは提案されていないものの、画像とテキストを相補的に検索するアルゴリズムを提案しており、この点で本研究と極めて類似したアイデアを提案していると考えられる。また、Henryら[2]も画像とテキスト情報を相補的に使用した探索システムを提案している。こういった研究が引用されていない以上、本研究の新規性を主帳するのは難しく、十分な関連研究の調査が必要である。推奨される参照文献： [1] 杉山裕樹ほか, “レシピデータ検索におけるクロスメディア適合性フィードバック”, 日本データベース学会論文誌(DBSJ Journal) 10(1), pp. 19—24, 2011. [2] Michael J. Henryほか, “MultiFacet: A Faceted Interface for Browsing Large Multimedia Collections”, ISM2013, pp. 347-350, 2013.

その他コメント

査読者 2

総合点

確信度

本論文では，画像類似度に基づく画像探索とテキスト類似度に基づく画像探索を相補的に行うことができる画像検索インタフェースを提案しています．提案手法では，画像に付与されている単語集合に対してトピックモデルを適用することで単語間の類似度を計算し，テキスト類似度に基づく画像探索を実現しています．

研究としての新規性は，画像特徴量に基づいて画像を配置したインタフェースだけでなく，画像に付与されたテキスト情報に基づいて画像を配置したインタフェースを組み合わせて画像検索が可能な点にあると判断いたしました．また，実サービスのデータを用いて提案インタフェースの有用性を評価している点も評価できます．

その一方で，新規性や実験の妥当性に疑問を持ちました．以下に具体的な理由を示します．

1. 提案インタフェースの有用性
提案インタフェースが，「カテゴリを理解する」という目的にどの程度寄与しているのかが分かりませんでした．ある画像群のカテゴリ名を知ることが目的なのであれば，その画像群の類似画像に多く付与されている単語集合をユーザに提示するだけで，目的は果たせるのではないでしょうか．つまり，画像類似度に基づく画像閲覧さえあれば十分であるように思えます．ユーザが単語を選択し，その単語と関連単語との類似度に基づいて画像を配置するところが本研究の興味深い点だと思いますが，このアイデアがどの程度「カテゴリの理解」を支援しているのかが論文や実験からでは分かりませんでした．単語に基づく画像閲覧を被験者がどのように用いていたのかに関する深い分析があると，提案インタフェースの有用性を示すことができると思います．

2. 提案手法の技術的な新規性
提案インタフェースとしての新しさはあるものの，本論文で提案している単語間の類似度計算については，技術的新規性は大きくないと考えられます．画像とテキストそれぞれに対してユーザからのフィードバックにより画像探索をするという研究については，類似研究があり，たとえば杉山らの研究があります[1]．文献[1]では単語に基づいて画像を2次元空間に配置するという，インタフェースとしてのアイデアは提案されていないものの，画像とテキストを相補的に検索するアルゴリズムを提案しており，この点で本研究と極めて類似したアイデアを提案していると考えられます． 

[1] 杉山 裕樹, 加藤 誠, 大島 裕明, 田中 克己: レシピデータ検索におけるクロスメディア適合性フィードバック, 日本データベース学会論文誌(DBSJ Journal) 10(1), p. 19—24, 2011.

また，本研究で用いられているLDAを利用した単語の類似性計算手法についても，既存のLDAを画像に付与されている単語集合に適用しただけであり，ここに技術的な新規性があるとは思えませんでした．LDAを用いた単語間の類似度計算に技術的な貢献があることを主張したいのであれば，LDAを用いたより単純な単語類似度に基づいた画像配置アルゴリズムとの比較が必要です．

3. 研究のモチベーション
研究のモチベーションに関する説明が十分でないと考えました．本研究で想定している，「カテゴリ名は分からないもののそのカテゴリに属する画像は持っている」という状況はどの程度一般的なのでしょうか．また，そのような状況があったとしても，その画像群が表すカテゴリ名を知りたい，というニーズが多く存在するのかについてもよく分かりませんでした．このあたりを補強するようなデータや説明があると，より説得力のある論文になると思います．

4. 実験の妥当性
（WISSでは評価実験は必須ではありませんので，下記コメントは論文の評価を減点するものではありません）

実験の妥当性に疑問を持ちました．実験ではベースラインとして画像内容のみに基づくシステム（DynamicMap）を用いていますが，参考ビデオを拝見したところ，このシステムは画像を選択してもそれに付与されている単語が表示されないシステムに見受けられました．もしそうであれば，このベースラインは，カテゴリ名を発見するという今回の実験に用いる比較手法としては妥当でないと思います．少なくとも，選択した画像に付与されている単語が表示されるように拡張したDynamicMapを用いて比較実験を行うべきだと考えます．

5. 用語の曖昧性
本研究において「カテゴリ」という用語は重要な概念だと考えられますが，その定義が分かりませんでした．また，用語の使い方が一貫していないのではと感じました．一般的に，LDAなどのトピックモデルではあるクラスにおける単語の出現確率分布のことをトピックと呼び，3章ではこのトピックのことをカテゴリと名付けています．しかし，1章や4章における「カテゴリ」という用語は，あるオブジェクトが属するクラス（たとえば，スカート）のことをカテゴリと呼んでいるように見受けられ，本論文で指す「カテゴリ」が意味するところが論文中で一貫していません．たとえば，4.3節で「同一カテゴリに所属する画像」という技術がありますが，これは3章でのカテゴリの定義で考えると，カテゴリとは確率分布を指すため，どのように同一カテゴリに所属する画像を定義しているのかが分かりませんでした．「カテゴリ」という用語は本論文の重要な概念ですので，明確に定義を与え，必要であれば異なる語彙を用いた方が可読性が高まると思います．

以下はその他のコメントです．

式(1)，(2): P_{c}(T,C)という表記は，単語TとカテゴリCの同時確率を表しているように見えます．ここで使用しているのはあるカテゴリCが与えられたときの単語Tが発生する条件付き確率だと思いますので，P_{c}(T|C)と表記すべきではないでしょうか．

式(1)，(2): 一般的に，2つの確率分布の距離を測る際には，KLダイバージェンスやJSダイバージェンスが用いられますので，それらの使用も検討してみてはいかがでしょうか．

式(5): この式は，ユーザが選択した単語と類似度が高い単語を選択し，ユーザに提示しています．これにより，ユーザが選択した単語とほぼ同一の単語（単数複数の違いや同義語）が選択されてしまい，画像探索の役に立たないという危険性はないのでしょうか．もちろん，これはどのような画像データセットを用いるかに依存するかと思います．

実験結果はユーザがシステムに与える初期画像群の特性に大きく依存するのではないかと考えられます．実験では，同一カテゴリに属する複数の画像を初期画像として用いていますが，実際のシステムの利用シーンでは，ユーザはカテゴリに関する知識が無いため，自らが望むカテゴリではない画像も初期画像として入力してしまうことも考えられます．本研究のモチベーションとも関連しますが，ユーザが正しいカテゴリに属する画像をすでに複数用意できている状況は実際の利用シーンとして妥当なのでしょうか．また，あるカテゴリに属する複数の画像が，画像特徴量的には全く類似していないというケースもあるのではと思います．提案手法がどのような入力に対して有効に働くかの実験結果や考察があると，提案手法の適用範囲が明確になりより良い論文になると思います．

査読者 3

総合点

確信度

本論文は、商品カタログ中の画像データのようなタグ情報付きの画像をカテゴリに関する予備知識なしでも探索可能とするインタフェースを提案している。カテゴリはLDAを用いて抽出されユーザは画像の選択とタグの選択を繰り返すことで結果を洗練しながら閲覧しカテゴリに関する知識を深めることができる。システムはきちんと実装されていてユーザスタディも行われており、完成度は高い。

しかし、この種の意味情報付き画像の検索に関してはマルチメディア、ウェブなどの会議にまたがって非常に関連研究が多く、semantic search/retrieval, multi-facet などと呼び方も異なっていて新規性を明確にするのは難しい。著者の主張する画像とタグの選択をiterativeに行えるというコンセプトそのものはそれほど新しいものではなく、査読者が探した範囲では、下記のものが近いように思われる。

Michael J. Henry, et al.
MultiFacet: A Faceted Interface for Browsing Large Multimedia Collections 
2013 IEEE International Symposium on Multimedia

とはいえ、提案システムとまったく同じシステムが見つけられたわけではなく、ショート発表としては十分な内容があると考える。