在之前我们提到过谷歌研发出一款能够分割一切图像的神奇工具:SAM。该模型展现了无比强大的图像分割能力,几乎可以分割图像中的所有物体。
而自从Meta开源Segment Anything后,衍生出很多有意思的应用。
近期,来自浙江大学ReLER实验室的科研人员在最新开源的SAM-Track项目中,解锁了SAM的视频分割能力,即:分割并跟踪一切(Segment-and-track anything,SAM-track)
该模型正式实现了分割一切模型(Segment Anything)对视频数据的支持,解锁了SAM的视频分割能力和对象追踪能力。
01 Track anything:视频分割追踪大师
Track Anything是一个灵活的交互式视频对象跟踪和分割工具,基于Segment Anything开发,可以通过用户点击来指定任何想要跟踪和分割的对象。
Track Anything是由高明琦等人在arXiv上发表的论文《Track Anything: A Flexible and Interactive Tool for Video Object Tracking and Segmentation》的代码实现,已经在GitHub上开源。它还提供了一个在线演示,可以让用户体验其功能。(Github源地址:https://github.com/gaomingqi/Track-Anything)
如电影片段中的人物分割与跟踪
NBA直播球员的移动追踪
甚至清明上河图这种非真实的画风中的人物
只需要在视频中用鼠标点几下,就可以追踪任何想跟踪的对象。
02 Track anything的优点与适用场景
Track Anything不仅可以跟踪和分割视频中的对象,还可以利用其他工具实现视频修复和编辑。例如,它可以结合E2FGVI,一个基于边缘感知的视频修复算法,来实现视频中的对象去除。
这样,用户可以在视频中隐藏或替换不想要的对象,从而创造出新的视频内容。
当然目前的隐藏功能还不够细致,比如这段视频中的影子没有消除。
Track Anything还可以用于视频编辑,例如改变对象的颜色、形状、大小等。
它可以结合XMem,一个基于内存网络的多目标跟踪算法,来实现对视频中多个对象的同时跟踪和分割。用户可以在视频中添加或删除对象,或者改变对象之间的关系,从而创造出新的视频场景。
Track Anything的优势是用户可以灵活地改变想要跟踪的对象,或者在有歧义的情况下纠正感兴趣的区域。这样,用户可以更好地控制视频对象跟踪和分割的结果,以及实现更多的视频创意。
例如通过点击或边界框指定单个目标物体进行分割/跟踪
通过点击添加多个物体进行分割/跟踪
这些特性使Track Anything适用于:
-
带有镜头变化的视频对象跟踪和分割。 -
视频对象跟踪和分割的可视化开发和数据标注。 -
以对象为中心的下游视频任务,如视频修复和编辑。
此外,SAM-Track项目还将提供了WebUI,方便用户上手使用:
你们觉得Track anything还有什么应用场景呢?
本文图片来源于网络