但是让我万万没想到的是,AI居然能像人一样刷短视频了!还能理解短视频的内容甚至能捕捉到视频中的笑点。
短视频我们并不陌生,但是AI想要理解短视频可不是一件简单的事情,首先要做到理解图像内容、文本内容和音频内容,还要将这些内容进行串联。
近期在ICML 2024上发表的论文《video- salmon: Speech-Enhanced Audio-Visual Large Language Models》就是首个集齐视频中所有音视频元素(自然图像、文字、语音、音频事件、音乐)的大模型。
获得更多技术支持和交流
(请注明自己的职业)
video- salmon的核心是一个多分辨率因果 (MRC) Q-Former结构,该结构将时间同步的视听输入特征与三种不同时间尺度的文本表示空间对齐,满足依赖不同视频元素的任务要求。
为了加强连续视频帧之间事件的时间因果关系,在MRC Q-Former中包含了一个具有特殊因果掩模的因果自注意结构。
此外,为了避免视频中的特定帧或单一模态占主导地位,video- salmon使用提出的多样性损失和新的不成对视听混合策略