Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understandingのまとめ

【論文まとめ】Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

<p>本記事において使用される図表は，原著論文内の図表を引用しています．</p>
<p>また，本記事の内容は，著者が論文を読み，メモとして短くまとめたものになります．必ずしも内容が正しいとは限らないこと，ご了承ください．</p>
<h2>論文情報</h2>
<p>タイトル: Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding</p>
<p>研究会: EMNLP</p>
<p>年度: 2023</p>
<p>キーワード: LLM, multi-modal, Demo</p>
<p>URL: <a href="https://arxiv.org/pdf/2306.02858.pdf">https://arxiv.org/pdf/2306.02858.pdf</a></p>
<p>DOI: <a href="https://doi.org/10.48550/arXiv.2306.02858">https://doi.org/10.48550/arXiv.2306.02858</a></p>
<p>コード: <a href="https://github.com/damo-nlp-sg/video-llama">https://github.com/damo-nlp-sg/video-llama</a></p>
<p>データセット: MSR-VTT, MSVD, VideoInstruct, ActivityNet-QA</p>
<h2>概要</h2>
<p>ビデオ中の動画と音声を理解できるVideo-LLaMAを提案</p>
<p>Video Q-Former (BLIP2)とAudio Q-Former (Imagebind)を用いて，動画のシーン間の変化を捉えたり，audio-visualな情報を統合したりする</p>
<p>Video-LLaMAは動画を理解して，ビデオ中の動画や音声に基づいた意味のある応答を生成できる</p>
<p><a href="https://huggingface.co/spaces/DAMO-NLP-SG/Video-LLaMA">デモ on huggingface</a></p>
<h2>提案手法</h2>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/sxpfrxf6.png" alt=""></p>
<h3>Architecture</h3>
<p>図の通り，Vision-Language BranchとAudio-Language Branchに分岐</p>
<p><strong>Vision-Language Branch</strong></p>
<ol>
<li>各フレームをフリーズしたBLIP2に入力（EVA-CLIPのViT-G/14とpre-trained Q-Former）</li>
<li>positional embeddingを適用</li>
<li>Video Q-Former</li>
<li>線形層</li>
<li>LLMへ</li>
</ol>
<p><strong>Audio-Language Branch</strong></p>
<ol>
<li>2秒ごとに音声をクリップ</li>
<li>各クリップ音声を128 binsのメルスペクトログラムに変換</li>
<li>Imagebind (as Audio Encoder)</li>
<li>Imagebindの出力に対して，learnableなpositional embeddingを加算</li>
<li>Audio Q-former</li>
<li>線形層</li>
<li>LLMへ</li>
</ol>
<h3>Multi-branch Cross-modal Training</h3>
<p><strong>Vision-Language Branchの学習</strong></p>
<p>事前学習→インストラクションチューニング</p>
<p>事前学習データセット：Webvid-2M，CC595k（CC3Mからフィルタされたもの）</p>
<p>インストラクションデータセット：MIniGPT4，LLaVA，Video-Chat</p>
<p>インストラクションチューニングすると，Video-LLaMAは良い能力を発揮</p>
<p><strong>Audio-Language Branchの学習</strong></p>
<p>audio-textなデータが少ないことが課題</p>
<p>→<strong>異なるモダリティを同じ埋め込み空間にalignmentするImagebindをAudio Encoderとして用い，visual-textデータを使って学習</strong></p>
<p>音声データで学習しないが，推論時は音声を理解することができる</p>
<h2>新規性</h2>
<ul>
<li>与えられたビデオの動画と音声を同時に処理して，会話ができるVideo-LLaMAを提案</li>
<li>vision-language alignmentとaudio-language alignmentの両方を達成するmulti-branch cross-modal pre-training frameworkを提案</li>
</ul>
<h2>Examples</h2>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/4pkwtgeu.png" alt=""></p>
<p>動画と音声の両方を理解できている例</p>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/ke9lg4al.png" alt=""></p>
<p>Temporal dynamicsを理解できている例</p>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/dkti6vzg.png" alt=""></p>
<p>staticな画像を理解できている例</p>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/55eess6q.png" alt=""></p>
<p>一般的な知識を示せている例</p>
<p>chat形式の例は論文のappendixを参照</p>
<h2>まとめ</h2>
<p>動画と音声を理解できるVideo-LLaMAを提案</p>
<p>Vision-Language BranchとAudio-Language Branchで分岐して，動画と音声を理解するアーキテクチャを提案し，Imagebindをvisual-textデータで学習することでaudio-textデータの少なさをカバー</p>
<p>Hallcinationがあることや，映画やテレビのような長い動画を処理できないことがlimitaitions</p>
<h2>その他</h2>
<p><img src="/images/article/Video-LLaMA-An-Instruction-tuned-Audio-Visual-Language-Model-for-Video-Understanding/tq9elvwf.png" alt=""></p>
<p>ポピュラーなマルチモーダルLLM</p>
<p><strong>所感</strong></p>
<p>Imagebindで同じ埋め込み空間に異なるモダリティの埋め込みを押し込んでいるのを利用して，audio-textデータの少なさをカバーしているのが上手いのだろうが，それでうまくいくことにちょっと気持ち悪さが残った（個人的に，大規模なaudio-textデータ構築へのモチベがより大きくなるなど）</p>
<p>素人感想だと，Audio-Language BranchにImagebindを使うのなら，Vision-Lannguage BranchもImagebindで良いのでは？と思った</p>
<p>とはいえ，temporalな情報をLLMで扱う手法はかなり参考になる</p>
<h2>次読みたい論文</h2>
<p><strong><a href="https://arxiv.org/abs/2305.05665">ImageBind: One Embedding Space To Bind Them All</a></strong></p>
<p><strong><a href="https://arxiv.org/abs/2304.12995">AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head</a></strong></p>
<h2>引用</h2>
<blockquote>
<p>@article{zhang2023video,
title={Video-llama: An instruction-tuned audio-visual language model for video understanding},
author={Zhang, Hang and Li, Xin and Bing, Lidong},
journal={arXiv preprint arXiv:2306.02858},
year={2023}
}</p>
</blockquote>

Multimodal Humor Dataset: Predicting Laughter tracks for Sitcomsのまとめ

【論文まとめ】Multimodal Humor Dataset: Predicting Laughter tracks for Sitcoms

<p>本記事において使用される図表は，原著論文内の図表を引用しています．</p>
<p>また，本記事の内容は，著者が論文を読み，メモとして短くまとめたものになります．必ずしも内容が正しいとは限らないこと，ご了承ください．</p>
<h2>論文情報</h2>
<p>タイトル: Multimodal Humor Dataset: Predicting Laughter tracks for Sitcoms</p>
<p>研究会: WACV</p>
<p>年度: 2021</p>
<p>キーワード: humor detection, multi-modal</p>
<p>URL: <a href="https://openaccess.thecvf.com/content/WACV2021/papers/Patro_Multimodal_Humor_Dataset_Predicting_Laughter_Tracks_for_Sitcoms_WACV_2021_paper.pdf">https://openaccess.thecvf.com/content/WACV2021/papers/Patro_Multimodal_Humor_Dataset_Predicting_Laughter_Tracks_for_Sitcoms_WACV_2021_paper.pdf</a></p>
<p>DOI: <a href="http://dx.doi.org/10.1109/WACV48630.2021.00062">http://dx.doi.org/10.1109/WACV48630.2021.00062</a></p>
<p>データセット: MHD (Multimodal Humor Dataset)</p>
<h2>概要</h2>
<p>マルチモダールなユーモアデータセット(<strong>MHD; Multimodal Humor Dataset</strong>)（The Big Bang Theoryを使用）を構築</p>
<p>海外のSitcoms (Situation comedies) では笑い声がドラマ内に含まれている</p>
<p>→ sitcomsは定期的に作成されていて，この笑い声を自動で追加するタスクがクリティカルなタスク</p>
<p>→ <strong>笑い声の自動挿入のタスクを自動化することが狙い</strong></p>
<p>構築されたデータセットを用いて，マルチモーダルを利用したAttentionベースのモデルを構</p>
<p>→SoTA &#x26; データセット分析</p>
<h2>提案手法</h2>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/w0i199qh.png" alt=""></p>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/ak7naea6.png" alt=""></p>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/sl4l2p5h.png" alt=""></p>
<h3>データセットのこと</h3>
<p>対話のチャンクに対してlaughter tracksを使用してラベルを付与</p>
<p>笑い声をアノテーションすることがは間接的に人手でのアノテーションと同じになるという過程</p>
<p>→ 笑い声の起こる直前の発話の集合をユーモアとしてラベル付け</p>
<p>Attributes</p>
<ol>
<li>Scene</li>
<li>Speaker</li>
<li>Recipients</li>
<li>Participants</li>
<li>Dialogue Turns</li>
<li>Dialogue Start/End time</li>
<li>Humor Start/End time
対話のチャンクに複数のlaughter tracksがある場合，最後のみ適用</li>
</ol>
<p>データ分析の結果はFig 3.を参照のこと</p>
<h3>モデルのこと</h3>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/ve5n04t6.png" alt=""></p>
<h2>新規性</h2>
<ul>
<li>手動でアノテーションされたマルチモーダルな大規模ユーモアデータセットを構築</li>
<li>これまでのSoTA手法を実験しつつ，multimodal self attention based modelを提案</li>
<li>提案手法の汎化性能を検証</li>
</ul>
<h2>実験</h2>
<p>5 turns / dialogueとする</p>
<p>humor : non-humor = 1 : 2としてサンプリング</p>
<p>humorのラベルが85%と高く，かなり不均衡のため</p>
<p>実験モデル</p>
<p>{Attention, Fusion, Sequential} with {only Text, only Video, both of them}</p>
<p>評価指標：</p>
<p>Accuracy, ROC, F1</p>
<h2>まとめ</h2>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/nlp8wlr7.png" alt=""></p>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/flj6yume.png" alt=""></p>
<p><img src="/images/article/Multimodal-Humor-Dataset-Predicting-Laughter-tracks-for-Sitcoms/rizjcdv5.png" alt=""></p>
<p>提案手法のMSAMが強い</p>
<p>表情や動作のようなvisual特徴量がユーモアの合図になっていることがある</p>
<p>→ visual特徴量を使うことが有効である</p>
<p>@Table 6.より，dialogueのターン数を長くするとよりcontextualにできるが，長くしすぎても精度が落ちている</p>
<p>→ dialogue 5, 6がピークになっている→ ゆえにturn数を5として本研究は進められている</p>
<h3>Discussion</h3>
<ul>
<li>良いモデルはテキストと視覚的な特徴量の重みづけの仕方を正しく考慮しなければならない</li>
<li>失敗例への対策
<ul>
<li>よりlong tailなユーモアにロバストにならなければいけない
<ul>
<li>例）Sheldonは滅多にブランケットを羽織らない→羽織った時面白くなる</li>
</ul>
</li>
<li>知識ベースの弱さへの改善
<ul>
<li>sitcomsは皮肉での笑いが多い（知識がないと伝わらないことがある</li>
</ul>
</li>
</ul>
</li>
</ul>
<h2>その他（なぜ通ったか？等）</h2>
<h2>次読みたい論文</h2>
<h2>引用</h2>
<blockquote>
<p>@INPROCEEDINGS{9423266, author={Patro, Badri N. and Lunayach, Mayank and Srivastava, Deepankar and Sarvesh, Sarvesh and Singh, Hunar and Namboodiri, Vinay P.}, booktitle={2021 IEEE Winter Conference on Applications of Computer Vision (WACV)}, title={Multimodal Humor Dataset: Predicting Laughter tracks for Sitcoms}, year={2021}, volume={}, number={}, pages={576-585}, doi={10.1109/WACV48630.2021.00062}}</p>
</blockquote>