

本文第一作家为王赞毅,本科毕业于西安交通大学,现为加州大学圣迭戈分校(UCSD)ECE 系硕士一年龄学生。其主要筹商观念为:视频集会,生成式建模。本责任为作家在国度电网想极 AI 实验室(SGIT AI Lab) 实习工夫的效力。
恒久以来,狡计机视觉领域堕入了一个 “表征(Representation)” 的执念。咱们风俗设想多样小巧的 Encoder,试图将动态寰宇压缩成一组特征向量。讨论词,视频行为现实的高维投影,其熵值之高、动态之复杂,让这种试图 “定格” 的表征显过劲不从心。极端是在指代视频分割(RVOS)中,传统 “先定位、后分割” 范式遭受了信息坍缩的瓶颈 —— 一朝特征被压缩,细粒度的时空对应关系便随之剖判。
要是换一种想路呢?要是不再执着于 “压缩” 和 “表征”,而是诈骗生成式模子对物理法例的深化集会去‘重演’这个经过,是否能兑现降维打击?在刚刚公布的 ICLR 2026 中,来自 SGIT AI Lab,UCSD, HKUST 等机构的筹商团队给出了确信的谜底。他们冷漠的 FlowRVS,跳出了传统‘冻结主干索求特征 + 零丁解码器算计’的镣铐。不同于以往将大模子只是视为一个特征索求器(Feature Extractor),FlowRVS 透顶开释了 DiT(Diffusion Transformer)全参数的生成才略,将分割任务重塑为一个在潜空间中、成功从视频流向 Mask 的要求流匹配经过。这不仅是 SOTA 的栽植,更是一种视觉感知范式的代际调度。

论文标题:Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
论文邻接:https://arxiv.org/abs/2510.06139
代码邻接:https://github.com/xmz111/FlowRVS
生成式建模:从 “压缩” 到 “仿真” 的降维打击
"What I cannot create, I cannot understand." — Richard Feynman
这句物理学界的理所当然,好像是 FlowRVS 最底层的注脚。 极致的生成,自身就是极致的集会。视频集会的实质艰巨在于其极高的不细则性与时空连气儿性。传统的判别式模子每每试图在这些不细则的像素中强行规矩畛域,这就像是在湍急的河流中试图用网兜住每一滴水,劳苦且由于装扮或指点微辞而每每失效。
比拟之下,Sora, Wan 2.1, 以及最近大火的 Seedance2 等生成式模子之是以刚劲,是因为它们在预考察经过中通过学习 “若何生成视频”,掌抓了物体恒常性、光影变化乃至物理指点的元知识。这种 “World Simulator” 级别的先验,恰正是责罚复杂视觉判别任务的终极谜底。试想,Seedance 2 能够生成长达数分钟、且适宜东说念主体能源学的复杂跳舞,这阐扬了 生成模子足以捕捉极高维度的时空演变法例。FlowRVS 的中枢瞻念察正基于此:与其考察一个模子去死记硬背像素的分类,不如诈骗 T2V 模子已有的生成才略,引导视频特征 “当然孕育” 出方针的分割掩码。这实质上是归并套物理王法在不同方朝上的应用。
配置了诈骗生成式模子的大观念,只是是推开了真义的大门,而通往最优解的旅途依然迷雾重重。回溯 Table 2 的消融实验,咱们看到的是一条从直观开拔,在碰壁中继续修正,最终转头物理实质的探索轨迹。
最初的构想每每是最朴素的:既然方针是分割,能否成功考察模子将高维视频特征 “压缩” 为二值 Mask?这种 “一步映射(One-step Prediction)” 看似最适宜判别式任务的风俗,但实验收尾却相等暴虐(JF 38.9)。事实阐扬,试图让模子在一步之内当先如斯遍及的信息鸿沟,如同要求它从绝壁成功跳入谷底,剧烈的特征坍缩导致了考察的非常不踏实。

既然成功映射行欠亨,那么效法 Sora 等主流生成模子,从高斯噪声动手生成 Mask 呢?这种 “从噪声开拔(Noise-to-Mask)” 的范式将视频左迁为援手要求,试图在一张白纸上 “幻视” 出分割收尾。讨论词,这一尝试带来了秘密性的 32.3 分。这个全场最低分揭示了一个被忽视的知识:视频自身包含了极高熵的空间和纹理细节,断念这些难得的先验,强行从零动手生成,无异于买椟还珠,贪小失大。
着实的出动,出目下对 “残差” 想维的转头上。当不再强求模子臆造算计皆备的 Mask,而是转而算计相干于视频特征的 “变化量(速率)” 时,性能一霎跃升至 50.8。这一数据的暴涨成为了至关伏击的路标 —— 它阐扬了保留视频自身行为基底(Source)的遍及价值。既然算计 “一步变化” 如斯有用,那么将其推广为连气儿的、平滑的变形经过,就是铿锵有劲的进化观念。顺着这一逻辑,FlowRVS 最终配置了 Video-to-Mask Flow 的范式:成功以视频为流的早先,学习一个细则性的 ODE 轨迹,引导高维特征平滑地 “流淌” 为方针 Mask。这种范式完全解锁了预考察模子的钱呢。最终 60.6 的 SOTA 成绩,不仅是分数的到手,更是对 “若何正确诈骗视频信息” 这一物理实质的深化转头。

非对称的流:当 “生成” 遇到 “判别”
要是说将判别任务重构为生成任务是 FlowRVS 的 “第一性旨趣”,那么若何处理这两个经过在物理阵势上的根柢各异,则是决定模子存一火的要道细节。让咱们把眼力投向论文中的 Figure 3—— 这张图揭示了一个被恒久忽视的拓扑学矛盾。范例的视频生成(如 Sora 或 Wan)是一个语义的发散经过(Divergent Process)”。模子从一个单纯的高斯噪声开拔,就像寰宇大爆炸一样,不错在潜空间中向即兴观念扩散,最终坍缩成大宗种合理的视频 —— 一只猫不错跑向左边,也不错跑向右边,惟有适宜物理法例即可。在这种发散场中,每一加噪步(Timestep)的伏击性相对平衡,米兰体彩app模子享受着 “探索” 的开脱。

讨论词,RVOS 这么的判别式任务是一个管理经过(Convergent Process)。输入是蕴含了亿万像素信息的复杂视频,方针却是唯独细则的二值掩码(Mask)。这就好比要将奔涌的江河强行收束进底本的起源。在这个经过中,t=0(流的早先)领有着见所未见的决定权。
BBS:霸占 t=0 的 “有琢磨权”
在传统的 Flow Matching 考察中,时辰t 是均匀采样的(Uniform Sampling)。这意味着模子会破耗雷同多的算力去学习 t=0.9 时的微调(此时 Mask 抽象也曾基本成型),和 t=0.1 时的开动变形。但在 RVOS 的管理漏斗中,这完全是资源错配。
t=0 时刻,是视频特征与文本辅导发生剧烈化学响应的 “奇点”。文本必须在这刹那间,从视频纷纭复杂的万千物体中,精确地 “收拢” 那只 “较小的山公”。要是在这一步失之豪厘,后续的流场无论若何考究演化,都将是谬以沉的陡然。
FlowRVS 冷漠的 畛域偏置采样(BBS) 正是基于这一物理直观。它冲破了均质流的假定,强行诬蔑了考察的时辰散播,让模子在考察初期荒诞地 “死磕” 早先(Oversampling start point)。实验数据阐扬了这一直观的准确性:只是引入 BBS,性能就暴涨了 10 个点。这证实,关于管理任务,“开拔的观念” 远比 “门路的修饰” 伏击。
多步不如一步?判别任务的物理势必
终末,咱们不得不濒临一个看似矛盾的气候:咱们费尽险阻引入了 ODE 求解器和 Flow Matching,但在最终推理时,果然发现与传统判别模子一样的 “一步推理(1-step)” 效果反而优于考究的多步求解。
这并非 Flow Matching 的失败,正巧相悖,这正是唯独 target 的判别式任务的物理势必。
范例的视频生成是一个随文本辅导的 “探索” 经过 —— 从一个噪声开拔,极端是不细则的,模子需要在多步迭代中渐渐 “画” 出细节,每一步都充满了飞速性与创造性。但 RVOS 迥乎不同,它是一个极致的管理经过。无论输入视频何等复杂,关于给定的文本辅导,方针的 Mask 是唯独、固定且细则的(Deterministic)。
在这种强不休下,Flow Matching 考察出的向量场不再需要去 “探索” 旅途。因为极端也曾锁死,模子学到的流场实验上就是一个直指极端的 “坍缩” 向量。当 BBS 计谋确保了早先的精确后,这条从高维视频到低维 Mask 的轨迹变得成功而细则。既然观念也曾如斯明晰且唯独,咱们当然不需要分多步去贯注翼翼地贴近 —— 成功沿着切线迈出一步,就能精确 “撞线”。这正是生成式框架在判别任务中展现出的私有魔力:用生成的妙技考察,却取得了转头的极速推理。
看见 “熵减”:不单是是 SOTA
当咱们将 FlowRVS 的性能量化时,数字照实令东说念主高潮:在最锻真金不怕火动作集会的 MeViS 基准上,FlowRVS 刷新了 SOTA 纪录(51.1 JF),基于 WAN2.1 T2V 1.3B 的模子即便与那些使用了更大参数目的模子比拟也绝不失容。更令东说念主骇怪的是它的零样本(Zero-shot)才略 —— 在从未见过的 Ref-DAVIS17 数据集上,仅凭 T2V 底座的通用知识,它就跑出了 73.3 的高分。但数字背后,FlowRVS 着实的魔力在于其处理视频时的 “细则性”。既然咱们将 RVOS 视为一个管理经过,那么这种物理直观在实验场景中究竟带来了哪些代际上风?

1. 穿越迷雾的 “物理直观”
传统的判别式模子每每在逐帧检测,一朝物体被装扮或环境变得轻视(如烟雾、强光、暗影),“检测框” 每每会发生抖动以致丢失。但在 FlowRVS 的视角里,视频是一个举座的流场。即便在严重的装扮(Occlusion)或非刚体形变下,分割 Mask 依然像胶水一样牢牢吸附在物体名义。这证实模子并非在机械地匹配像素,而是诈骗 T2V 底座中蕴含的物理法例,集会了物体的 “恒常性”。

https://mp.weixin.qq.com/s/q00A7IB3wd_FzdLv49ad1w?click_id=18
2. 极速推理的奥密:被拉直的时空
收成于对视频全局建模的特质,FlowRVS 在超长序列的处理上展现出了传统模子难以企及的踏实性。在长达 81 帧的超长测试中,FlowRVS 的推理效力确切莫得波动。更伏击的是,它透顶责罚了长距离跟踪中的 “轨迹漂移” 难题,在更长帧数与视频(200 帧,25s)下依旧能保持让东说念主骇怪的外推才略。
这种踏实性源自于 Flow Matching 考察出的流场具有极强的观念细则性,模子进展出了一种近乎 “直观” 的算计力:即便物体的动作超出了考察集的散播畛域(如 “翻跟头的狗”,“打篮球的东说念主”),它依然能凭借对物理指点轨迹的集会,顺着流场的观念完成精确分割 。这种从已知推向未知的泛化红利,阐扬了 FlowRVS 捕捉到的是视频指点的实质法例,而非简便的模式哀痛。

https://mp.weixin.qq.com/s/q00A7IB3wd_FzdLv49ad1w?click_id=18

https://mp.weixin.qq.com/s/q00A7IB3wd_FzdLv49ad1w?click_id=18

https://mp.weixin.qq.com/s/q00A7IB3wd_FzdLv49ad1w?click_id=18
万流归宗:Flow Matching 的跨模态大一统
FlowRVS 的到手,不仅是一个 Vision 任务的到手,更是对 Flow Matching 表面普适性的又一次有劲实证。
无论是 Seedance 2 将音频律动映射为肢体动作,照旧 Sora 将文本映射为光影像素,亦或是 FlowRVS 将视频像素映射为语义掩码,其数学实质都是一致的:诈骗向量场(Vector Field)构建两个概率散播之间的最优传输(Optimal Transport)旅途。
在 Flow Matching 的视角下,模态的壁垒被冲破了。Input 不错是噪声、是视频、是音频;Output 不错是图像、是 Mask、是深度图,以致是 3D 动作。 FlowRVS 阐扬了,惟有咱们能界说好源散播(Source)和方针散播(Target),Flow Matching 就能在两者之间架起一座细则性的桥梁。
这好像预示着视觉感知的将来:咱们不再需要为检测、分割、生身分袂设想特异化的架构(Encoder-Decoder, R-CNN...),系数的任务,终将被调处在一个简陋优好意思的 ODE 方程之中。

备案号: