■ 論文ID: 68 ■ タイトル: 画像照合に基づく多メディア間の話題追跡システム ■ 著者: 豊田正史(東大),伊藤正彦(東大),Cai-ZhiZhu(NII),佐藤真一(NII),喜連川優(東大) ------------------------------------------------------------------ レビューサマリ ------------------------------------------------------------------ 全てのレビュアーがポジティブに論文を判定しており,採択と判定させていただきました. しかしながら,記述が不足していると指摘された内容がありますので,カメラレディで詳細を出来るだけ追記して下さい. 特に ・本提案システムの応用先・用途 ・Review2にて指摘されているトピックの概念の定義およびその他細かい指摘内容 ・Review3にて指摘されている内容(どのような分析が可能になるのか) については追記および修正をお願いいたします. ------------------------------------------------------------------ reviewer 1 ------------------------------------------------------------------ ■ 総合点: 4 ■ 確信度: 3 ■ 査読コメント: ブログに投稿されたWebアーカイブ上の画像と,放送映像アーカイブの画像を比較照合して抽出し,話題ごとに時間軸上に並べて可視化するシステムが提案されています.Webメディアとテレビ放送の間の話題に関する時差や露出の差を可視化することが可能です. Webメディアとテレビ放送の話題分析に関する先行研究では,単一メディア内によるものやテキスト情報の分析によるものが主で,画像照合を用いて複数メディアの情報追跡を行っている本研究の提案には,十分に新規性を感じました. とは言え将来的にどのように利用できるのかという応用について,もう少し言及および議論があっても良いのかと感じました.Webメディアとマスメディアで注目されている話題がWebメディア発信なのかマスメディア発信なのか知ることが出来れば,今後注目されるであろう話題やマスメディアでの取り上げられ方を予測することも可能かもしれません.また,Webメディアでだけ高頻度で取り上げられていてマスメディアでは一切取り上げられてない話題やその逆の話題についても発見することができると示唆されるので,取り上げられない話題同士の関連性を追及することで“マスメディアによる流行作りの失敗”や“インターネット独自の盛り上がる話題”を発見できる可能性があります.このような可能性についても実際のWISSの場において言及され,議論できることを期待します. Webメディアとマスメディアのひとつの話題に関する時間的な“盛り上がり”の差が確認できるのは有用だと感じる一方で,その話題に関する“盛り上がり”が肯定的なものか否定的なものかといった“盛り上がりの評価”に関する点も言及できるシステムになれば,より効果的に現代社会を読み解くツールとして有用になると感じます. また,システムの処理の応答時間に言及されていないことに関しては少し気になりました.使いやすさについてすぐに結果を閲覧できるように予め特定の話題については事前に処理しておけば,十分に使えると感じるので,システムの使いやすさに関して少しでも触れていればより有用性をアピールできるのではないかと感じました. 論文中で気になった点についてまとめます. ・p.1, 1章最後「大規模なWebメディアと放送映像アーカイブに適用し」とありますが,システムに適応させる具体的な事例について言及しているので,「Webメディア」という表現よりも「ブログアーカイブ」とするのはいかがでしょうか.この箇所で「放送映像アーカイブ」と対になる言葉は「ブログアーカイブ」だと思われます. 誤字脱字などが若干見られますので,カメラレディではもう少し推敲されることをお勧めいたします. ------------------------------------------------------------------ reviewer 2 ------------------------------------------------------------------ ■ 総合点: 4 ■ 確信度: 3 ■ 査読コメント: ウェブと放送という2大メディアを網羅した話題分析の研究は,意欲的なテーマであり,論文が主張するように画像類似度を中心とした技術の開発は斬新なアプローチです. この研究でカバーされている技術の範囲は広いのですが,論文にはあまり詳細が記述されておらず,難解です.また,論文の書き方もやや乱暴であり,未定義な術語の使用や意味の揺れているように思われる術語の使用が目立ちます. 特に重要な問題点として,この論文の中心的な話題となっているトピックが十分に定義されていないのではないでしょうか.あるいは,トピックに関連する概念が複数の意味で使用されているように思われます.3.3 節に出現するトピックは画像クラスタの要約文章を文書クラスタリングした画像集合を表すようですが,別の箇所ではテキスト検索の結果得られる文書群を表しているようにも読めました.想像するに,いくつかの検索インタフェイス,あるいはクラスタリング結果のラベルとしてトピックが存在しているようなのですが,このあたりの概念の整理をお願いいたします. 論文のなかでさまざまな技術が紹介されており,そのなかのいくつかは提案するシステムのために独自開発されたもののように読めます.前者については可能な限り原著論文を引用して下さい.後者については,簡単でもいいのでもう少し内容の説明をお願いいたします. 迫力のある内容だと思いますが,詳細があまり語られていないために,関心を持つ人にはもどかしさが残ってしまいます.以下に細かいコメントをしますので,論文の内容を改善していただければ幸いです. 3.1 について (a) SIFT特徴点にノイズのフィルタ処理を含めない場合には,適合する画像の組が爆発的に増え,宇野のアルゴリズムが働かないことが示唆されています.このフィルタ処理の有効性を少ない画像数の場合の実験結果などで示せませんでしょうか.指数爆発を起して実験が困難な場合には,そのようにご報告いただくとよいと思います. (b) クラスタリングに用いた類似度の定義が与えられていないように思いました.2値化 SIFT 特徴ベクトルのハミング距離のことでしょうか.すでに,このハミング距離 <= 1 な組の集合を得ていると思うのですが,このペア関係との違いはハミング距離 = 0 or 1 の違いが重要という意味でしょうか.それとも,ここでは2値化する前のベクトルに対するハミング距離を利用しているのでしょうか? 幾何整合性判定についての参考文献をご教示下さい. 図1 の読み方,特に左奥方向の軸の意味がわかりません.ユーザによっては,複数のトピックが与えられるのでしょうか.トピックとは検索キーワードという理解で間違いないでしょうか.この軸の「ブログ」と「放送映像」にはどのデータベースに対するどのような検索結果が該当するのでしょうか. 図1: には各データに沿って,トピックを表す文書要約が記載されているようですが,図では判読できませんので,caption,あるいは本文中に列挙していただきたいです. 図1: トピックのデータ列が表しているのも画像のスタックなのでしょうか.また,それらは 放送映像とブログの画像スタックの部分集合と考えてよろしいのでしょうか.と書きつつ,図の中央にある2つのバーストに対応する画像スタックが放送映像にもブログにも見つかりません.このことをどのように理解すればよいのでしょうか. cos類似度とコサイン類似度は表記を統一して下さい. 3.3 の手法は, (1) 画像群を画像特徴量に応じてクラスタリング (2) 画像クラスタに含まれる要素画像の周辺テキストについて,文書のベクトル空間においてクラスタリングし,ここで見つかるクラスタをここではトピックと呼ぶ を経て,階層的なクラスタ(第一層に画像クラスタ群,第二層にトピッククラスタ)が構成されているように推察されます.かなり込み入った内容だと思いますので,模式図などを利用してもう少し丁寧に説明していただければわかりやすくなるかと思います. 4.1: ショット分割は3.2に記述された手法のことでしょうか.「約2,000万キーフレームを抽出した」手法を説明して下さい. ------------------------------------------------------------------ reviewer 3 ------------------------------------------------------------------ ■ 総合点: 3 ■ 確信度: 2 ■ 査読コメント: 本論文では,TVとWebという異なるメディアにおける画像の出現を3次元空間上に可視化し,インタラクティブに分析可能なシステムを提案しています.論文では主に2つの事例により,提案システムの有用性を示しています. TVとウェブという2つのメディアにまたがった画像分析システムという着眼点は非常に面白く,また,既存研究との差異も明確に示されています.また,1年を越えるニュース番組とウェブ文書をインデキシングし,大規模データに対してシステムを実現しているところも高く評価できます. 本論文では,2つの例によりシステムの有用性を示しています.この2つの例は非常に興味深い結果だと思うのですが,一方で,提案システムで,具体的にどのような分析方法が可能なのかが論文中であまり明確に記述されていないと思います.例えば,時系列の交差相関係数による分析を通すことで,恐らく,ブログに先行してTVに出現している画像クラスタや,逆にブログに遅れて出現しているといった時系列的な分析が可能になっているかと思うのですが,論文中ではそれが明示的に示されていません.従って,本論文で得られた結果が「たまたま」得られたのか,システムが用意した分析関数を通して「ねらって」得られたのかの判断が現在の記述では困難です.特に,画像クラスタのコサイン類似度やトピック間の類似性がどのような分析を可能とするのかが良く分かりませんでした.提案システムが用意した分析関数や機能により,どのような分析が可能となるのかをより明確に記述すると,システムの有用性が明確になると思います. 以下,細かい点です. − p2. 与えられてた −> 与えられた − p4. 東日本団震災 −> 東日本大震災 − 参考ビデオは,ユーザがどういう目的で,どのような操作をしているのかが全く分かりません.字幕あるいは音声により説明を付与し,分かりやすいビデオにする必要があるかと思います.