当前位置: 主页 > 新机快讯 >

贾佳亚团队结合Adobe提出GenProp,物体追踪移除殊效样样外行

发布者:[db:作者]
来源:[db:来源] 日期:2025-01-26 08:34 浏览()
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected][email protected]论文一作刘少腾,Adobe Research练习生,喷鼻港中文年夜学博士生(DV Lab),师从贾佳亚教学。重要研讨偏向是多模态年夜模子跟天生模子,包括图像视频的天生、懂得与编纂。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。论文地点:https://arxiv.org/pdf/2412.19761名目地点:https://genprop.github.io/视频地点:https://www.youtube.com/watch?v=GC8qfWzZG1MText-to-Video 模子已展示降生界模仿器的潜力,这种潜力能改革传统视觉义务吗?克日,贾佳亚团队联手 Adobe 团队,用 GenProp(Generative Video Propagation)来给出谜底。GenProp 能够实现多少乎全部 “传布”( Propagation)义务,即使是更濒临感知义务的实例追踪(Instance Tracking):在人们的印象里,追踪(Tracking)成绩曾经失掉了很好的处理。SOTA 方式 SAM 在年夜范围宰割数据上经由了专门的练习,精度很高。但是,传统感知方式的数据标注很难笼罩 “变幻无穷” 的影子,强如 SAM 也会在这类成绩上出错。比拟于 SAM v2.1,GenProp 展示出了天生模子特有的上风:得益于 video generation 的基本才能,模子能够完全地追踪物体的 side effects,如狗跟人的影子、反射等。这给咱们带来了一些启示:可能天生的视觉景象,能否都可能被感知?天生式的年夜范围预练习,可能会补充感知模子的一些缺点。GenProp 并不寻求在某个成绩上成为定量的 SOTA,而是盼望可能施展天生模子的感化,拓展每个成绩的界限,展示之后方法做不到的事件。接上去,咱们会看到 GenProp 对物体移除、视频补全、物体调换、配景调换、物体拔出、视频外绘等成绩的改革。对物体移除,传统方式只能移除物体自身。跟追踪成绩相似,GenProp 也能够同时移除物体发生的 side effects,如反射、影子。这对传统方式很艰苦,由于数据多变、难以网络,须要模子对物理法则有懂得。对物体拔出,GenProp 不只能拔出运动物体,还能够发生公道的自力活动,如行驶的赛车、失落落的柠檬(合乎物理法则)。对物体调换,GenProp 不止能编纂表面(appearance editing),还能年夜幅转变调换物体的外形,比方熊酿成羊,人酿成石台。而依附 attention map 的传统视频编纂方式,如 Video-P2P,都无奈年夜幅转变外形。GenProp 还能够编纂殊效,如使垂纶竿着火!须知,现阶段的编纂算法年夜多缭绕物体跟场景,对殊效的编纂才能都较弱。对配景调换,GenProp 能使天生物体跟新配景的彼此感化,顺应和谐:除此之外,GenProp 在不 outpainting 数据 pair 练习的情形下,出现出了 outpainting 的才能,能够补全年夜面积活动的地区,表现了模子的通用才能:化繁为简:通用框架与通用数据对GenProp 容许用户在初始帧上做恣意修正,并据今生成后续变更的内容。在推理进程中,GenProp 的框架经由过程抉择性内容编码器(Selective Content Encoder,SCE)接受原始视频作为输入,以保存未转变地区的内容。首帧所做的变动会经由过程 Image-to-Video(I2V)模子在全部视频中传布,而其余地区则坚持稳定。如图所示,Selective Content Encoder 担任重修原始视频的信息,Image-to-Video 模子担任出产新的视频信息。经由过程调剂 Injection Weight,能够把持天生跟重修的比例。GenProp 的框架在 I2V 天生模子的基本上集成了抉择性内容编码器(Selective Content Encoder,SCE)跟掩码猜测解码器(Mask Decoder),强迫模子传布编纂地区的同时,保存原始视频中其余全部地区的内容。经由过程 Copy Paste 等分解数据,模子被练习以传布首帧中的种种变更,同时还能够猜测每帧中被编纂地区的地位。如图所示,练习进程中,仅需摊开 Selective Content Encoder 跟 Mask Decoder 的参数。分解数据只作为 Selective Content Encoder 的输入,用于监视的模子输出数据均采取原始视频,从而保障了模子输出的视频品质不会被下降。这也象征着,原始视频的 caption 能够直接送入 text encoder。详细来说,文章对实例宰割数据采取了多种数据制作技巧,针对差别的传布子义务停止了计划:(1) Copy-and-Paste:从一个视频中随机宰割物体并粘贴到另一个视频中,模仿物体移除;(2) Mask-and-Fill:对遮罩地区停止图像修复,模仿选定地区内的编纂后果;(3) Color Fill:用特定色彩添补遮罩地区,代表基础的物体跟踪场景。Copy Paste 分解数据如图所示(Video1 跟 Video2 是随机采样的视频):能够看出,GenProp 的数据对并无涵盖全部的利用场景,但数据量很年夜。经由过程无限的结构数据,SCE 跟 I2V 的分工失掉了充足练习,实现了 “无穷” 利用,如殊效编纂、outpainting 等。除此之外,GenProp 提出了地区感知丧失(Region-Aware Loss)。该 loss 经由过程限度梯度的方法,减弱了 SCE 对编纂地区的影响,辅助模子将编纂地区与原始内容辨别开来。能够察看到,在留神力求可视化进程中,留神力求逐步聚焦于要移除的地区(右边的天鹅),领导 I2V 模子在这些地区内天生新内容,合乎练习的预期:总结本文搭建了一个通用的框架,把视频天生模子改变为编纂模子 GenProp,可将一帧的修正传布到全部视频。对去除义务,模子可去除物体的 side effects(如影子、反射)。对修正义务,模子可修正物体的一小局部,也可停止较年夜形变的修正。对配景修正,模子可能天生物体跟新配景的彼此感化。对物体拔出,模子可能容许物体自力的活动。对物体追踪,模子可能同时追踪 side effects(如影子、反射)。别的,模子还出现出了如 outpainting 等新才能。
分享到