査読者1

[メタ] 総合的な採録理由

本論文では、フォークもしくはスプーン型デバイスにマイクとスピーカを取り付け、アクティブ音響センシングによって,食材の判別をすることを試みています。カトラリーに接触する食材の判別をするという発想は新しく、先行研究との差分も十分にあります。

実際の食事シーンでは、調理されることで食材の組成が変化することや、唾液や食材の一部が残ることによる精度への影響、同時に複数食材を同時に食べた場合の認識方法などの課題は残りますが,評価実験を丁寧におこなっており、食材の刺し方・載せ方にばらつきがあっても高い結果になったことが評価されました。

[メタ] 査読時のレビューサマリ

【評価された点】
食事という場面を対象とした、カトラリーによるアクティブ音響センシングという提案手法には新規性があると考えられます。
現在のフードログは写真を撮る手間などがあるために、時にそのせいで食事を楽しめなくなる状態になりえます。今回提案されているような通常の食事をする流れで検知をすることができれば大きなインパクトを残せると思います。
また精度に関しても、シナリオ1では食材の刺し方・載せ方にばらつきがあっても高い結果になったことが評価できます。

【課題点】
・調理されることでの組成変化や同時に複数食材を同時に食べられた場合の認識など、これから発生しうる課題に対して音響センシングがどこまで有効に働くかを検討し、議論する必要があると感じました。
・実際に食事を続けるとカトラリ上に唾液や食材の一部が残ることで精度に影響を与える可能性があり今後もまだ技術的な課題が残されていると感じました。
・食をテーマにした研究は活発になっており、食材を認識する技術も発表されています。食べる食材を検知する研究では、小坂(Food Practice Shooter)は重さセンサを用い、門村(SensingFork)らはカラーセンサを用いて提案をしています。これらの関連研究に比べて音響センシングを用いた点が新規性がある要素だと思われますが、類似手法と比較し特徴や有用点を述べる必要があると感じました。


以下は、論文での記述に追加する内容として検討ください。

3.3節によると、Sweep信号は1Hzから40kHzで出力しているようですが、可聴域も出力した場合、カトラリーの使用者にもSweep音が聞こえてしまうのではないかと思います。
指摘の理由としては、3.4節では処理する際には人の非可聴域である20,001Hzから40,000Hzのみを利用していると記述されているため、そもそもSweep信号として1Hzから20,001Hzを出力する必要性があるのか、理解できませんでした。

4.3節「また,食事をしない状態を認識するため,デバイスと食材が接触していない状態を…」とありますが、デバイスと人は接触していた状態だったのか、記述が不足しています。

4.6節「包丁やお玉などの調理器具に提案手法を適用することで,調理しながら食材を認識できるため,…」とありますが、フォーク,スプーン以外の適用については評価されていないため、「認識できるため」ではなく「認識できれば」という表現を提案します。

1秒のFFTで20,000次元の特徴ベクトルを抽出する部分の実装が不明です。FFTのフレーム数が分からないと、20k~40kHzの周波数binの個数が特定できないため、なぜ20,000次元になるのかが分かりませんでした。FFTのフレーム数と特徴ベクトルの導出手順について、論文が採録された場合は加筆修正願います。

[メタ] その他コメント

総合点

8: ロング採録が妥当

確信度

1: 専門外である

採否理由

本論文では,カトラリーに音響センサーを取り付け,アクティブ音響センシングによって,カトラリーに接触している食材を認識することを試みています.食事という場面を対象とした,カトラリーによるアクティブ音響センシングという提案手法には新規性があると考えられます.さらに,評価実験を丁寧におこなっており,認識精度も高い水準で達成しているため,提案手法の有効性を示しています.

いくつかの点で記述が十分でない点がありますが,提案手法の新規性ならびに評価実験によって有効性を示せていることから,論文の貢献は大きいと考え,ロング採録での議論に値する内容であります.

この研究をよくするためのコメント

カトラリーの把持の仕方による影響が議論されていないポイントが気になりました.そもそも人が触れている状態での実験なのか,人が把持しているのかでは状況が変わります.さらに,カトラリーの把持の仕方によっても,提案手法の性能が変わらないか検証できると,提案手法の有効性をより強調できると思います.

また,リミテーションでも述べていますが,人が把持していると,肉のような材質の近いものは検出が難しいようにも思えます.生の野菜のような硬質な素材以外の議論があると,制約がより明らかになると思いました.

以下は,論文での記述に追加する内容として検討ください.

3.3節によると,Sweep信号は1Hzから40kHzで出力しているようですが,可聴域も出力した場合,カトラリーの使用者にもSweep音が聞こえてしまうのではないかと思います.
指摘の理由としては,3.4節では処理する際には人の非可聴域である20,001Hzから40,000Hzのみを利用していると記述されているため,そもそもSweep信号として1Hzから20,001Hzを出力する必要性があるのか,理解できませんでした.

4.3節「また,食事をしない状態を認識するため,デバイスと食材が接触していない状態を…」とありますが,デバイスと人は接触していた状態だったのか,記述が不足しています.

4.6節「包丁やお玉などの調理器具に提案手法を適用することで,調理しながら食材を認識できるため,…」とありますが,フォーク,スプーン以外の適用については評価されていないため,「認識できるため」ではなく「認識できれば」という表現を提案します.


査読者2

総合点

6: ショート採録を強く推す

確信度

2: やや専門からは外れる

採否理由

フォークもしくはスプーン型デバイスにマイクとスピーカを取り付け、食材の判別をするという発想は新しく、先行研究との差分も十分にあります。また、本研究は健康管理や食育につながる有用な研究だと感じました。

論文の記述の質や正確性について概ね問題はありませんが、3.4節の実装の説明で不明な点がありました。具体的には、1秒のFFTで20,000次元の特徴ベクトルを抽出する部分の実装が不明です。FFTのフレーム数が分からないと、20k~40kHzの周波数binの個数が特定できないため、なぜ20,000次元になるのかが分かりませんでした。FFTのフレーム数と特徴ベクトルの導出手順について、論文が採録された場合は加筆修正願います。

この研究をよくするためのコメント


査読者3

総合点

7: ロング採録に反対しない

確信度

1: 専門外である

採否理由

今回の提案手法の精度に関しては、シナリオ1では食材の刺し方・載せ方にばらつきがあっても高い結果になったことが評価できます。

しかし実際に食事を続けるとカトラリ上に唾液や食材の一部が残ることで精度に影響を与える可能性があり今後もまだ技術的な課題が残されていると感じました。

食をテーマにした研究は活発になっており、食材を認識する技術も発表されています。
食べる食材を検知する研究では、小坂(Food Practice Shooter)は重さセンサを用い、門村(SensingFork)らはカラーセンサを用いて提案をしています。

過去の提案に比べて音響センシングを用いた点が新規性がある要素だと思われますが、類似手法と比較し特徴や有用点を述べる必要があると感じ、今回の評価になりました。

この研究をよくするためのコメント

現在のフードログは写真を撮る手間などがあるために、時にそのせいで食事を楽しめなくなる状態になりえます。今回提案されているような通常の食事をする流れで検知をすることができれば大きなインパクトを残せると思います。
しかし、調理されることでの組成変化や同時に複数食材を同時に食べられた場合の認識など、これから発生しうる課題に対して音響センシングがどこまで有効に働くかを検討し、議論する必要があると感じました。