AnnoTone:高周波音の映像収録時埋め込みによる編集支援

-----------------------------
review comment 1
-----------------------------
■ 総合点
4
■ 確信度
2
■ 査読コメント
動画撮影時に携帯端末から出る高周波音を一緒に録音する事で、動画に様々のアノテーションを付加できる手法を提案している。提案手法のアイデアはシンプルだが、賢く、実用的である。5章で述べられている使用例は、いずれも便利だと感じられるものであり、有効性も高く評価したい。ユーザにとって懸念される事柄についても、6章の性能評価で多くがカバーされている。論文としても良く書けていて、WISSへの採択を推したい。

After Effectsとの連携のところは分かりにくい。心拍数の例が挙げられているが、心拍数の測定に提案手法をどう使うのか不明である。未だ実装・確認していない内容なのなら、今後の課題としてはどうか。

投稿された動画に音声が入っていないのは作為的なものを感じる。注釈信号による音質変化は、提案手法において最も懸念される点だが、それがどの程度なのか確認できない内容となっているので、提案手法の信頼性はやや低く評価せざるを得ない。
■ レビューサマリー
高周波音を埋め込んで動画編集のための注釈とする、というアイデアには新規性、有効性が認められる、という意見が優勢でしたので、採択と致しました。一方、各査読コメントにあるように、手法の信頼性(音声品質の低下、デコード時間)については未だ疑問もありますので、発表時に説明のあることが望ましいです。



-----------------------------
review comment 2
-----------------------------
■ 総合点
4
■ 確信度
3
■ 査読コメント
可聴域の高周波部分に情報を埋め込む方式は多く提案されていますが、多くは楽曲などへの関連情報埋め込みや電子透かしを目的としており、提案手法(映像記録時の注釈付加)には新規性があると思われます。

編集時のアノテーションだけでは無く、寄附やGPSデータの埋め込みなど、多くのアプリケーションが実装されている点も評価できます。

マルチトラック音声やデータストリームとの同期が容易に行える現代では、(音声品質の低下の危険性を冒してまで)無理に既存の音声トラックに重畳するメリットは少なくなっていますが、既存の機器に簡単に後付けできるという利点は理解できます。

一方、デコードに要する時間についての記述がありません(実時間?)。
アップロードしたサーバー側でバックグラウンドでデコードしておく方法もありますが、撮影後すぐに使いたい場合には問題になりそうです。
例えば、圧縮されているファイル全体を解凍せずに埋込情報「だけ」複合できるような手法があれば、デコード時間を縮められる可能性があります。
(参考:圧縮状態のビットストリームを直接用いた画質評価:井芹ほか、デコード前ビットストリームを用いた映像品質自動測定アルゴリズム、情報処理学会研究報告. [オーディオビジュアル複合情報処理] 2004(126), 77-81, 2004)

なお、ビデオの音声トラックに任意のアノテーション情報を埋め込む方式は、古くは VHS 規格の VTR で用いられていました (VASS:ビデオアドレスサーチシステム)。ここでは、符号化方法の工夫により、等速再生時だけでなく、早送り/巻き戻し時にもデコード(16bit長)ができるようになっています。



-----------------------------
review comment 3
-----------------------------
■ 総合点
3
■ 確信度
2
■ 査読コメント
Information Hidingの技術を、映像に重合させて利用する仕組みは、非常におもしろいと思うが、今回あげられた応用例に、意義を見いだすのは難しいのではないかと考えている。
たとえば、GPSの時刻情報と組み合わせる例であるが、GPSの位置情報と映像の時刻情報を同期させ、編集時に重ね合わせれば、それで可能なことである。あえて、映像に重ね合わせる状況を、もう少し説明してもらえなければ、本システムの有効性が明らかにならない。