深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？热点

发布日期：2023-06-05 10:41:14 来源：千不樊

文|千不樊

编辑|千不樊

【资料图】

介绍

在没有人类监督的情况下发现物体，因为它们在空间和时间上移动和改变外观是计算机视觉中最具挑战性和尚未解决的问题之一；我们如何才能最好地利用物体运动和外观之间的相关性，在没有人工监督的情况下对物体发现过程进行数学建模。

从时空域中可用的大量数据中更有效地学习，而人为干预最少，视觉分组的任务对人类来说是自然而然的，但对机器来说要求很高；在视频无监督分割的背景下，具有强大监督学习能力的深度学习领域和迭代图算法领域，具有证明的无监督聚类优势。

我们引入了一种，可用于在无监督设置中自动分割视频序列的主要对象，虽然一般的基于 3D 卷积的方法将时间维度视为等同于空间维度，我们提出了一种不同的耦合运动和外观的方式。

现实世界中的物体在它们的时空邻域中形成簇，属于同一物体的点在空间和时间上保持连接，具有相似的外观和运动模式，也与场景的其余部分不同。

科学背景

视频对象分割在计算机视觉领域得到快速发展，大多数解决方案基本上都是受监督的，因为它们依赖于带有人工标记注释的大量预训练模型；虽然人工标注成本极高，但真正的无监督方法很少。

利用不同的启发式方法和多尺度视频对象分割的内在属性；嵌入经过预训练以用于显着性预测、跟踪、估计几何变换和视频摘要，与上述工作不同，弥合了经典迭代图算法和深度学习之间的差距，利用两者的优势实现自我监督。

图1 我们的迭代知识交换 ( IKE ) 系统的架构图模块（左）和网络模块（右）在多个循环上交换信息，直到收敛。

图 2

时空图结构的可视化表示，说明了创建定义图形的远程边的过程；彩色曲线表示运动链，通过跟随光流矢量，从一帧到另一帧按时间向前和向后形成，黑色虚线曲线对应于图边，在通过至少一个运动链连接的节点之间定义。

图 3

沿运动链收集节点特征：对于一个节点j, 构成特征向量的特征Fj沿着两个输出运动链（一个向前，一个向后）收集，来自与沿链相遇的节点相关联的像素的不同特征。

两个关键要素使我们的方法与众不同：

（1）我们提出了一个紧凑的数学模型，它将运动和外观耦合起来，将视频中的主要对象定义为我们的特征运动矩阵中的主要自然光谱簇。

图 4

(2) 我们的时空簇在像素级别是密集的，因此能够通过早期做出硬分组决策（例如，计算超像素）来使用视频中的所有信息而不会丢失细节。

图 5

方法

一种双重迭代知识交换模型，将时空谱聚类与深度对象分割相结合，能够在没有任何人工注释的情况下进行学习，图形模块利用了视频序列中固有的时空一致性，但无法访问深层特征。

网络模块作为图形模块的补充，将深层特征添加到聚类算法中，该网络具有强大的表示能力，并尝试预测仅具有单帧输入的时空聚类过程的输出。

图 6

图形模块

给定一个序列M视频帧，图形模块发现主要对象作为时空图中最强的自然簇，并提取一组米软分割掩码，每帧一个，对应于该主要对象。

时空图

定义时空图 G=(V,E), 有一个节点一个 a∈V关联到视频的每个像素|V|=n，在哪里n = m h w,M- 帧数和( h , w )- 帧大小）；G是一个无向图，具有由运动链定义的边集（图 2）。

在时空图中，每个节点A具有关联的节点级功能 FA∈R1 ，从与节点关联的像素开始，沿着传出运动链收集特征向量A并通过连接到的所有像素A通过运动链。

谱聚类问题公式

我们定义矩阵P是将任何向量投影到特征矩阵的列空间的投影矩阵F(P = F (FtF)− 1Ft). 对向量的约束X, 它表明它应该是列的线性组合F, 可以通过要求满足S=xTMx。

最优解x∗最大化xTMx在约束下x = P x和∥ x∥2个= 1, 也会最大化xTPMPx受约束 ∥x∥2。

证明草图作为x∗最大化x = P x在约束下x = P x和 ∥x∥2= 1, 它也最大化(Px)TMPx. As P=PT作为P =PT，它遵循x∗最大化XTP M P x在考虑的约束条件下。

优化问题可以定义如下：

图优化算法

Feature-Motion 矩阵的主特征向量A最佳解决方程式中定义的问题，在这个公式中，我们将分割转换为经典谱聚类，也与图匹配的谱方法相关。

基于的属性A，具有非负元素，我们可以使用 Perron-Frobenius 定理推断出最优解x∗具有正值，我们的算法是幂迭代法的有效实现，将收敛到最优解x∗。

迭代t期间图模块的主要算法步骤

传播步骤

传播步骤相当于让每个节点A根据更新其标签x(t)a=∑bMa,bx(t−1)b

步骤也相当于每个节点A有自己的标签被传播到它所连接的所有节点。

经过一个节点时b，我们将其标签更新为xb←xb+Ma,bxa但也更新标签A xa←xa+Ma,bxb，我们在前向和后向方向上将信息从一帧中的所有节点联合传播到所有相邻帧。

在每次迭代中，我们估计最佳权重集w＊给定节点级特征的最佳近似当前节点标签F. 权重计算如下：

w∗=(FTF)−1FTx(t)

x(t)←Fw∗=Px(t)

理论分析

尝试将算法的步骤表述为单个更新，会得出描述幂迭代的递归关系：

x(t)=(PMx(t−1))/(∥PMx(t−1)∥2

这意味着所提出的算法保证收敛到 PM矩阵，它遵循x∗最大化瑞商R(PM,x)=(xTPMx)/(xTx

最优解的 L2-范数是∥x∗∥2=1 和x∗住在列空间F，意思是x∗= Px∗. 它立即得出最优解x∗也最大化了我们的目标xTPMPx。

网络模块

网络模块（图 4）是一个补充时空图的深度分割模型，在每个周期，仅使用图形模块的输出作为监督信号从头开始训练网络，并在接下来的聚类迭代中将它们传递给图形。

网络模块在样本对上进行训练(Ii,xi)， Ii∈Rh×w×3是ith视频序列的图像，以及xi∈[0,1]h×w是监控信号，对于帧i，由图形模块提供。

这种配置确保在高置信度区域增加惩罚，同时我们确保在不确定区域更宽松的行为，在实践中，我们考虑 λ1=λ2=0.5，网络模块解决了以下优化任务：

优化算法在实践中的收敛性

分割过程应该收敛到相同的解决方案x∗不管它的初始化X( 0 )，即使初始解决方案是完全随机的，算法也会收敛到视频中的主要对象，根据人工标记的 ground truth 验证了 Feature-Motion 矩阵具有一个主要的强簇，它确实对应于序列中的主要对象。

为了验证唯一解的收敛性，我们仔细研究了起点在实践中的影响，我们验证了给定相同的特征运动矩阵时会发生什么（这仅取决于所使用的光流模块，而不取决于初始解决方案X( 0 ))，我们改变初始起点。

表 1 无监督图模块的性能（第一个周期）

无监督情况：光流的影响

运动链中连接的两个节点（像素）在图中也连接，而未通过运动链连接的节点在图中也不连接，连接性以矩阵编码米并立即转移到特征运动矩阵A, 是时空图的邻接矩阵。

在表 1中，提出了一个不同的实验，其中对于用于构建图运动结构的给定光流（M），我们连接了用两种光流方法（RAFT 和 FlowNet2.0）计算的节点级特征向量来构建F。

图 7

特征运动矩阵的谱分析

特征运动矩阵A是所提出的图形模块的关键元素，我们的公式将分割视为一个谱聚类问题，前提是视频序列中的主要对象像素（其中存在此类对象）在空间和时间上形成了一个强大的自然聚类。

图 8 在图 8中我们为每个考虑的配置提供前六个特征值A, 降序排列

改进几个图网络循环

迭代知识交换系统的有效性，其中图形作为网络模块的教师，然后网络为下一个聚类和学习周期提供更强大的功能，在表 3和图 9中，我们详细介绍了多个数据集的性能演变，同时考虑了无监督和监督情况。

表 3 循环之间的相对百分比变化

在图 9 中，展示了系统在无监督情况下的性能演变，此时节点仅使用流特征，网络模块总是随机初始化的。

我们系统的无监督公式是最有价值的，因为该系统受益于时空图的聚类能力和网络的学习能力，使学习成为可能，而过程中的任何步骤都无需人工注释。

图 9

与基线和最新技术的比较

在图 10中，我们展示了迭代知识交换系统的定性结果，我们强调两个组件之间的协议，图形模块和网络模块。

我们的无监督系统的定性结果，包括所有 4 个数据集的网络和图形模块，对于 YouTube-Objects 和 DAVSOD，ground truth 有时是粗糙的，在这些情况下，我们的结果往往比注释更精细，这强调了获得高度准确的人工注释的难度。

在图 11中，我们展示了图和网络模块在无监督设置中的最终性能（在任何级别的训练或预训练中都没有使用人工注释），我们观察到，虽然该图显示出优越的性能，但单图像网络模块也具有竞争力，并且在相同监督水平下克服了大多数顶级方法。

表 4 用于视频显着目标检测任务的 DAVSOD 数据集的定量比较

表 6 用于零样本视频对象分割任务的 YouTube 对象数据集的定量比较

计算复杂度

IKE 系统的每个循环都需要通过图形模块和网络模块，给定时空图的公式，视频像素和图节点之间存在一对一的对应关系，光谱聚类问题可能看起来很棘手。

考虑到整个系统的复杂性与帧数成线性关系，报告每帧的计算成本，对于图形模块的第一个周期，实现需要 0.8 秒/帧：光流 0.04 秒 + 图形数据初始化 0.18 秒 + 20 次时空图形迭代 0.58 秒。

图 12

只有第一个周期需要初始化，报告的数字是考虑的最大特征数 (26) 和 FlowNet2.0 光流（RAFT 解决方案需要 0.33 秒/帧），网络模块需要 1.64 秒/帧：1.63 秒用于 5 个训练时期 + 0.01 用于推理。

IKE 所需的总时间为 5.24 秒/帧，224 × 416. 图形模块也可以并行化，但它不在我们当前的实现中，在图 13中，我们研究了图形模块第一个周期的计算成本的演变，涉及特征数量和帧数量。

图 13

讨论与结论

双迭代知识交换系统中，无监督时空聚类模块向深度网络模块提供监督信号，后者又将其新学习的深度特征传回图形，这两个互补模块作为一个单一的自我监督实体运行，并在几个周期内交换信息，直到达成共识。

IKE 非常符合当前视频对象分割的需求，因为无监督情况对于开发对未知数据强大且稳健的方法来说是强制性的，通过将更经典的图聚类与现代深度学习的互补力量结合在一起，我们在优化和数据驱动模型之间取得了平衡，这种方法可以为无监督视频分割研究提供新的思路。

如果你也喜欢我的文章，不妨点个“关注”吧！小生在此谢过了！

END

标签：

上一篇:拟同意的意思是什么_拟同意 下一篇:最后一页

深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？ 热点

介绍

科学背景

方法

图形模块

时空图

谱聚类问题公式

图优化算法

迭代t期间图模块的主要算法步骤

理论分析

网络模块

优化算法在实践中的收敛性

无监督情况：光流的影响

特征运动矩阵的谱分析

改进几个图网络循环

与基线和最新技术的比较

计算复杂度

讨论与结论

深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？ 热点

考虑到整个系统的复杂性与帧数成线性关系，报告每帧的计算成本，对于图

拟同意的意思是什么_拟同意

1、领导批示“拟同意”，是一种意向，是表明自己同意这个方案，但隐约

财务评价体系的原则是_财务评价体系

当前大家对于财务评价体系都是颇为感兴趣的，大家都想要了解一下财务评

压实资产评估看门人责任_看点

压实资产评估看门人责任---随着市场服务领域拓展、行业规模不断扩大，

开展儿童安全用药消费教育-报资讯

开展儿童安全用药消费教育

安庆市望江县大力发展大棚蔬菜瓜果种植-全球头条

日前，在安庆市望江县杨湾镇丰乐村蔬菜大棚基地，村民们在采摘瓠子。近

环球滚动:乐视电视安装第三方软件解析错误_乐视电视怎么安装第三方软件

1、安装方法：1，在电脑上下载软件安装包到U盘；2，在电视应用商店下载

天天信息:行书的特点

行书的结构法是各种风格和流派的行书所应共同遵守的结构原则，王、颜、

通讯！动脉血检查什么病_动脉血检查什么

1、动脉血主要是检查动脉血气，看动脉血中的血氧、二氧化碳和一些离子

非常了得 舒然_非常了得里叫舒然的“高姐”长得很漂亮啊

想必现在有很多小伙伴对于《非常了得》里叫舒然的“高姐”，长得很漂亮

3gqq网页版登录（3gqq）

来为大家解答以上问题，3gqq网页版登录，3gqq很多人还不知道，现在让我

奥运冠军管晨辰和浙大校花分一个宿舍，体重暴涨96斤依然身轻如燕

奥运冠军管晨辰和浙大校花分一个宿舍，体重暴涨96斤依然身轻如燕,校花,

canneberge是什么意思?

canneberge蔓越橘；蔓越莓蔓越莓，又称蔓越橘、小红莓、酸果蔓，英文名

每日热讯!1.13今日美元兑人民币汇率是多少?人民币汇率牌价数据

中亿财经网1月13日讯，今日美元兑人民币汇率是多少?人民币汇率牌价数据

中国联通：云南联通收回云南全省委托承包运营权-焦点速讯

证券时报e公司讯，中国联通(600050)6月4日晚间公告，下属子公司云南联

世界微动态丨什么是有效的反机器人解决方案？

在机器人程序管理解决方案方面，迭代解决方案至高无上。那些研究攻击者

前沿热点：bose蓝牙耳机如何配对手机 bose蓝牙耳机配对手机方法 bose耳机怎么连接蓝牙手机

bose是一款十分经典的品牌，bose蓝牙耳机采用了强大的消噪技术博得了不

焦点速讯：excel怎么设置公式小数点保留位数_excel怎么设置公式

你们好，最近小品发现有诸多的小伙伴们对于excel怎么设置公式小数点保

涮火锅牛肉什么部位好? 世界讯息

涮火锅用牛肉外脊部位最好。外脊是牛前腰脊肉，肉质嫩滑，也是牛排的上

世界快讯:房子的首付是怎么样计算的

房子的首付是根据总房价减去客户的贷款额度来计算的。买房交了首付符合

我国攻克建造大型邮轮核心技术 形成一系列科技创新成果_观察

央视网消息：我国首艘国产大型邮轮“爱达·魔都”号目前正在建造中，6

黄皮肤怎么变白内调（黄皮肤怎么变白）

1、这是我的经验,相信你也可以用到(简单、经济、又天然）：用新鲜的牛

无尽的祭坛_关于无尽的祭坛介绍

1、无尽的祭坛是网络游戏《地下城与勇士》中死神阿加雷斯建造的一座祭

“川企出四川·名品行全国”华南地区推介活动启动

原标题：“川企出四川·名品行全国”华南地区推介活动启动四川新闻网-

全球热议:兰的拼音和组词的拼音_兰的拼音和组词

1、兰香、兰若、兰州、兰花、兰陵、吊、泽兰、玉兰片、蕙兰、桂兰、慧

【科幻/原创/连载】银河纪元（前传）

【新视野】严莉莉的扮演者是谁_严莉莉的扮演者

世界速看：183是移动还是联通的_183是移动还是联通

国债逆回购代码是多少

网商贷协商延期还款电话是什么？还款成功后还会不会催收？

【天天新要闻】网络电视软件哪个好用（网络电视软件）

古茗奶茶加盟费多少钱？2023年加盟费用详细说明|世界关注

【世界速看料】王尼玛荆轲刺秦王什么梗 王尼玛荆轲刺秦王

环球微速讯：全部封顶！我们2024见！

扬州边检站连救2名外籍船员，呼吁企业敲响安全生产警钟_天天微速讯

世界球精选！楼中楼能不能多开一个门？业主各有说法，相关部门已介入

阿盟交通执法支队普法宣传活动|世界热头条

深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？热点

深度学习和时空谱聚类之间的迭代交换，怎么用于视频无监督分割？热点

非常了得舒然_非常了得里叫舒然的“高姐”长得很漂亮啊

我国攻克建造大型邮轮核心技术形成一系列科技创新成果_观察

【世界速看料】王尼玛荆轲刺秦王什么梗王尼玛荆轲刺秦王

奇正消痛贴膏的功效怎么样（奇正消痛贴膏的功效）每日速读

营业税金及附加税率_营业税金及附加税率全球视点

发现最美你评我论丨渭南合阳灵泉村：影壁脊兽找到关中传统村落的正确“打开方式”-环球热闻

绿水青山环水田夏种插秧正当时动态焦点

福建专科常规志愿填报后什么时候查录取_专科什么时候报志愿世界微动态

无人机安全标准出台！我国对民用无人机提出17个方面强制性技术要求世界观焦点

尘肺病的早期症状可以治好吗尘肺病的早期症状

要闻速递：高考倒计时这份考前心理调适指南请查收！

乔任梁女朋友李嘉艾抖音_乔任梁女朋友滚动

塞恩斯伯里宣布新举措解决粮食贫困问题短讯

透过数据看中国流动、平稳、新高成为发展关键词焦点资讯

盈盛控股乔迎宾：不显山露水潜心打造“智能办公”

中沃防火门马忠良：前半生守国门后半生护家门

兰州名师话“美育”：“尚乐立人”分层培优以“美”润教

天津：划定封控区全市开展全员核酸检测

重庆姐弟被生父扔下坠亡案上诉期结束一审法院暂未收到两被告人上诉状