文 / 机器感知研究员 Carl Vondrick
跟踪视频中的物体是计算机视觉领域的一个基本问题,对活动识别、物体交互或视频风格化等应用而言至关重要。不过,教会机器对物体进行视觉跟踪十分困难,这在一定程度上是因为此过程需要使用大量带标记的跟踪数据集进行训练,而大规模地标注在实际中并不可行。
在 “Tracking Emerges by Colorizing Videos” 一文中,我们介绍了一种卷积网络,这种网络可以对灰度视频着色,但被限定为仅从一个参考帧复制颜色。通过这种方式,网络可在没有监督的情况下自动学习对物体进行视觉跟踪。重要的是,尽管模型从未明确进行过跟踪训练,它仍然可以跟踪多个物体,跟踪被遮挡的物体并在物体发生变形时保持稳定,而不需要任何带标记的训练数据。
基于公开学术数据集 DAVIS 2017 的跟踪预测示例
在学习对视频着色之后
在没有监督的情况下出现了一种自动跟踪机制
我们在第一帧中指定感兴趣的区域(用不同颜色表示)
模型无需任何额外学习或监督即自动跟踪
学习对视频重新着色
我们假设颜色的时间一致性为教机器跟踪视频中的区域提供了大规模的优秀训练数据。显然,总有一些例外情况,即颜色不具备时间一致性(如突然开灯),但一般而言,颜色不会随着时间而变化。并且,大部分视频都包含颜色,这就提供了可扩展的自监督学习信号。我们先去掉视频的颜色,然后再添加着色步骤,因为视频中可能有多个物体颜色相同,而通过着色我们可以教机器跟踪特定的物体或区域。
为了训练系统,我们使用了大型公开数据集 Kinetics 中的视频,此数据集汇总了大量描述日常活动的视频。我们将除了第一帧以外的所有视频帧都转换为灰度图像,并训练一个卷积网络来预测后续帧中的原始颜色。我们期望模型学会跟踪区域,以准确恢复原始颜色。我们的主要观察结果是,跟踪物体着色这一需求使得自动学习物体跟踪模型成为可能。
我们使用 DAVIS 2017 数据集中的视频