論文一覧に戻る

査読者 1

総合点

5

確信度

2

コメント

本研究は、周辺視野映像の付与により映像視聴体験(特に没入感)を向上させることを目的としています。既存の映像コンテンツのための周辺視野映像を生成するため、GANに基づくpix2pixを活用する点がこの研究の独自性です。そのための初期検討として、予め汎用モデルを学習しておく手法と、個別のコンテンツに特化したモデルを逐一学習する手法の2パターンを実装し、既存手法とも簡単な比較を行い、考察をしています。これがどう映像視聴体験に影響するかの評価は実施されていません。

まず、添付されている動画が何を示したものなのかが不明です。まず狭い領域で映像が表示され、続いて周辺視野映像を合わせたものが表示されているように見受けられますが、これは手法1、手法2、既存手法 [5], [6] のいずれの結果なのでしょうか。明度のちらつきの軽減の処理がされたものなのでしょうか。見た限り、時間軸方向の平滑化が適用され、かつ生成された物体のちらつきがあることから、手法1または手法2なのだと思いますが、図4で示されている例に比べて非常に強いぼかしが入っているように思えます。

明度のちらつきに関する考察がされているが、そもそもどれだけの問題があったのか、平滑化によってどれほどの改善が見られたのかが、本文・図・動画を通して、定量的にも定性的にも議論や提示がされていないのが残念です。時間軸方向のちらつきが起きることは時間軸情報を考慮しないpix2pixを使用する時点で想像できる問題であり、平滑化によって多かれ少なかれ改善する可能性は(実際に手を動かさずとも)十分に想像できます。現状の原稿では、明度のちらつきについて、実際に手を動かすことでしか得られない知見が効果的に報告できていないように感じます。

この研究対象の一番面白い点は、単純な画像補完が目的ではなく、映像視聴体験(特に没入感)の向上を目的としている点です。したがって、周辺視野を如何に精度良く生成するかという指標ではなく、如何に映像視聴体験を向上できたかという指標で評価されるべきです。周辺視野ではあえてボケた映像を表示した方がむしろ映像体験としては良い、という可能性もあるかもしれません。その点では既存手法 [5], [6] だけでなく、よりナイーブな手法 (エッジ周辺のピクセルの色を引き延ばすなど) とも比較されると良いかもしれません。現段階ではまだこういった観点から評価されていない点は残念ですが、問題設定自体の面白さは強く感じました。

またimage inpaintingの学習モデルを転用するだけでなく、映像視聴体験を向上させるための周辺視野生成に特化した学習モデルの提案なども将来的には検討されると面白いかもしれません。

アプローチの面白さや今後の発展に極めて大きい可能性を感じました。GANはタイムリーな技術でその可能性には多くの人が注目しており、現状の結果を共有するだけでもWISSにて有意義な議論はできそうであると感じます。しかし現状の報告内容はあくまで初期検討にすぎず、ロング採録するに値する知見が含まれていないように感じました。したがってショート採録が妥当と考えます。

なお図4のキャプションと図の内容が一致していませんでした。

採録判定時のコメント

周辺視野映像の生成・付与による没入感向上の提案。同様のシステムは多く提案されているが、画像補完にDNNを用いるというアプローチには新規性がある。初期実装は完了しており、まずまずの結果が得られている点は評価できる。一方で、ちらつきに関する考察の不足や、提案手法の どこの部分が「没入感」の向上に効果的なのかの議論が行われていないなど、論文としては初期提案段階に留まっていることから、ショート採録と判断された。

レビューサマリ

周辺視野映像を付与することで没入感を向上させるという問題設定は自体が面白く、また画像補完のためのGANを用いるというアプローチは新規性が大きく査読者3名とも高く評価しています。初期の実装は完了しており、一定のレベルの結果が得られている点は評価できます。その一方で、技術的な工夫による改善の余地が残されている点は全ての査読者が指摘しています。

今後の発展として、技術面で工夫をしていくことでより品質の高い結果を得たり、さらには提案手法によって実際にどの程度どういった側面で映像鑑賞体験が変化するかを評価したりしていくことを期待します。

その他コメント

査読者 2

総合点

5

確信度

2

コメント

DNNを用いた画像保管を使って、周辺視野映像を生成する手法の提案である。
周辺視野映像を生成する手法は既存研究に存在するがDNNを用いた手法としては
新規性を評価できると思います。

論文の画像を見るとそこそこ良い結果が出ているように見えるのですが、
投稿されているビデオを見ますと、まだ改善の余地ありのように思います。


既存研究[5]では、リアルタイム性が欠け、[6]では映像の自然さが欠けるとのことですが、
本提案手法でどちらも改善した、というところまではたどり着いていません。

一方で、今後の展開可能性を期待して、採録と判断いたしました。
WISSで議論することで、より良い技術へと発展する可能性に期待します。


手法1と手法2を組み合わせる、動画の隣接するフレームからの予測や複数枚入力といった
可能性をぜひ実験し、WISSの会場で結果を見せながら議論して欲しいと思います。



「DNN」が突然出てくるので、一度フルスペルを記載した上で、2回目以降を
DNNと略語表記を用いたほうがわかりやすいと思います。

査読者 3

総合点

7

確信度

1

コメント

画像補完の技術を周辺視野映像の生成に応用し,映像の没入感拡張を試みる点に新規性があります.
また,本手法で生成した映像が,ちらつきやリアルタイム性において多少の改善点はあるものの実用し得るレベルであることが評価できます.
今後の展開として,映画のようにシーンが多数登場するような映像への適用についても述べられていますが,本研究ではどのような映像までを対象にするのかについて分かり難かったので,具体的に記載いただきたいです.