【多视图聚类】COMPLETER:Incomplete Multi-view Clustering via Contrastive Prediction
CVPR 2021
0.摘要
在本文中,我们研究了不完全多视图聚类分析中的两个具有挑战性的问题,即i)如何在没有标签的帮助下学习不同视图之间的信息性和一致性表示,以及ii)如何从数据中恢复缺失的视图。为此,我们提出了一个新的目标,从信息论的角度将表征学习和数据恢复结合到一个统一的框架中。具体来说,通过对比学习最大化不同视图之间的互信息来学习信息一致的表示,通过双重预测最小化不同视图的条件熵来恢复缺失的视图。据我们所知,这可能是第一个提供统一一致表示学习和交叉视图数据恢复的理论框架的工作。大量的实验结果表明,该方法在四个具有挑战性的数据集上显著优于10种有竞争力的多视图聚类方法。
1.研究背景
在现实世界中,通常表现出异构属性的多视图数据是从不同的传感器收集的,或者是从各种特征提取器获得的。作为最重要的无监督多视图方法之一,多视图聚类(MVC)旨在以无监督的方式将数据点分成不同的聚类[11,17,20,29,40,54]。为了实现这一目标,关键是探索不同视图之间的一致性,以便学习一个公共/共享的表示[5,12,14,21,33,47]。在一致性学习的背后,隐含的假设是视图是完整的,即所有数据点将出现在所有可能的视图中。
然而,在实际应用中,由于数据采集和传输的复杂性,数据点的某些视图可能会丢失,从而导致所谓的不完全多视图问题。例如,在在线会议中,由于传感器故障,一些视频帧可能会丢失视觉或音频信号。为了解决IMP,已经提出了一些不完全多视图聚类算法(IMC),通过采用许多数据恢复方法来完成缺失的数据,例如基于矩阵分解的方法[10,22,35,46,53]和基于生成对抗网络的方法[16,41,45]。这些作品试图克服以下两个挑战:i)如何学习跨不同视图的信息丰富和一致的表示?以及ii)如何消除缺失视图的影响?虽然已经取得了一些有希望的结果,但几乎所有现有的工作都将这两个挑战视为两个独立的问题,仍然缺乏统一的理论理解。
与现有的IMC研究不同,我们从理论上表明,跨视图一致性学习和数据恢复可以被视为一枚硬币的两面,这两个具有挑战性的任务可以相互促进。我们的动机来自[38],如图1所示。应该指出的是,[38]利用预测学习来增强对比学习的性能,而我们的目标是通过双重预测来恢复缺失的数据。此外,另一个不同之处在于我们的理论结果,即数据恢复和一致性学习可以通过对比学习和双重预测相互促进。
图一。我们的基本观察和理论结果是从信息论的角度出发的。在该图中,实心矩形和虚线矩形分别表示包含在视图1(
X
1
\mathbf{X}^1
X1)和视图2(
X
2
\mathbf{X}^2
X2)中的信息。在数学中,互信息
I
(
Z
1
,
Z
2
)
I(\mathbf{Z}^1, \mathbf{Z}^2)
I(Z1,Z2)(灰色区域)量化由
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2共享的信息量,其中
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2分别是
X
1
\mathbf{X}^1
X1和
X
2
\mathbf{X}^2
X2的表示。为了学习一致的表示,鼓励最大化
I
(
Z
1
,
Z
2
)
I(\mathbf{Z}^1, \mathbf{Z}^2)
I(Z1,Z2)。此外,最小化条件熵
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)(蓝色区域)将鼓励丢失视图的恢复,因为当且仅当条件熵
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)=0时,
Z
i
\mathbf{Z}^i
Zi完全由
Z
j
\mathbf{Z}^j
Zj确定,其中i=1,j=2或i=2,j=1。微妙地,一方面,
I
(
Z
1
,
Z
2
)
I(\mathbf{Z}^1, \mathbf{Z}^2)
I(Z1,Z2)的最大化可以增加共享信息量,因此可以受益于数据可恢复性,即,更容易从一个视图恢复另一个视图。另一方面,由于
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)量化了基于
Z
j
\mathbf{Z}^j
Zj的
Z
i
\mathbf{Z}^i
Zi的信息量,因此
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)的最小化将鼓励丢弃跨视图的不一致信息,从而可以进一步提高一致性。通过上述观察,在上述统一信息论框架下,交叉视图一致性和数据恢复被视为一枚硬币的两面。
基于我们的观察和理论结果,我们提出了一种新的不完全多视图聚类方法,称为基于对比预测的不完全多视图聚类(COMPLETER)。具体来说,COMPLETER将给定的数据集投影到特征空间中,其中使用三个联合学习目标来保证信息一致性和数据可恢复性。更具体地说,视图内重建损失用于学习视图特定的表示,从而避免了琐碎的解决方案。在潜在特征空间中,通过最大化互信息
I
(
Z
1
,
Z
2
)
I(\mathbf{Z}^1, \mathbf{Z}^2)
I(Z1,Z2)引入对比损失来学习交叉视图一致性,并通过最小化条件熵
H
(
Z
1
∣
Z
2
)
H(\mathbf{Z}^1|\mathbf{Z}^2)
H(Z1∣Z2)和
H
(
Z
2
∣
Z
1
)
H(\mathbf{Z}^2|\mathbf{Z}^1)
H(Z2∣Z1)使用双重预测损失来恢复缺失视图。需要指出的是,本文中提到的数据恢复是面向任务的,即只恢复共享信息而不是所有信息,以方便MVC等下游任务。总结一下:
•我们为学界提供了一种新的见解,即不完全多视图聚类的数据恢复和一致性学习具有内在联系,可以优雅地统一到信息论的框架中。这种理论观点与将一致性学习和数据恢复视为两个独立问题的现有工作明显不同。
•所提出的COMPLETER方法具有新的损失函数,该函数使用对比损失和双重预测损失来实现信息一致性和数据可恢复性。大量实验验证了所提损失函数的有效性。
2.相关工作
在这一节中,我们简要回顾了两个相关主题的一些最新进展,即不完全多视图聚类和对比学习。
2.1 缺失多视图聚类
基于利用多视图信息的方式,大多数现有的IMC方法可以大致分为三类,即基于矩阵分解(MF)的IMC[10,22,35,53],基于谱聚类的IMC[39]和基于核学习的IMC[26]。简单地说,基于MF的方法利用低秩将不完全数据投影到一个公共子空间中。例如,DAIMC[10]在
l
2
,
1
\mathcal{l}_{2,1}
l2,1范数的帮助下建立了共识基础矩阵,IMG[53]利用
l
F
\mathcal{l}_{F}
lF范数来减少缺失数据的影响。作为一种典型的基于谱聚类的方法,PIC[39]使用从不完全视图构建的一致拉普拉斯图来学习公共表示。EERIMVC[26]提出使用多核方法以迭代优化的方式实现IMC。此外,像[16,41]这样的方法利用cycleGAN[55]从完整的视图中生成缺失的视图,CDIMC-net[44]结合了视图特定的编码器和图形嵌入策略来处理不完整的多视图数据。
这项研究与现有工作之间的差异如下。首先,我们的目标是推断缺失的数据,而不是缺失的相似性,从而享有更高的可解释性[26]。第二,我们的方法是一个深层而非浅层模型[10,19,22,26,35,39,53],因此自然包含了处理复杂和大规模数据集的能力。第三,几乎所有现有的IMC方法[10,16,22,26,35,39,41,53]都将数据恢复和一致性学习视为两个独立的问题/步骤,而缺乏理论上的理解。相比之下,我们提出数据恢复和一致性学习可以统一到信息论的框架中[36]。数据恢复和一致性学习都有利于学习公共表示。
2.2 对比学习
作为最有效的无监督学习范式之一,对比学习[2, 4, 8, 23, 28, 30, 37, 38]在表征学习中取得了最先进的性能。对比学习的基本思想是通过最大化正对之间的相似性同时最小化负对之间的相似性,从原始数据中学习特征空间。最近的一些研究表明,对比学习的成功可以归因于互信息的最大化。例如,MoCo[9]和CPC[30]最小化可被视为最大化互信息下限的InfoNCE损失,即
I
(
Z
1
,
Z
2
)
≥
l
o
g
(
N
)
−
L
N
C
E
I(\mathbf{Z}^1, \mathbf{Z}^2) ≥ log(N ) − \mathcal{L}_{NCE}
I(Z1,Z2)≥log(N)−LNCE,其中N是负对的数量,
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2分别是多视图数据
X
1
\mathbf{X}^1
X1和
X
2
\mathbf{X}^2
X2的潜在表示。
这项工作与现有的对比学习研究之间的差异如下。首先,大多数现有的对比学习方法[2,8,9,28]旨在处理单视图数据,并详尽地探索各种数据增强,以构建不同的视图/增强。相比之下,我们的方法旨在从给定的多视图数据集中学习一致性。据我们所知,这可能是关于多视图对比学习的首批研究之一。第二,我们的方法是专门为处理缺失数据而设计的,而现有的对比学习工作忽略了这个实际问题。第三,尽管现有的对比学习研究表明,一致性可以通过最大化不同增强的互信息来学习,但它们忽略了不一致性学习。在一个统一的信息论框架下,我们证明了不一致性学习可以用条件熵来定义,并且通过最小化不一致性来恢复缺失数据。
3.方法
在本节中,我们提出了一种深度多视图聚类方法,称为通过对比预测的不完全多视图聚类(COMPLETER),用于学习具有一组不完全多视图样本的表示。如图2所示,COMPLETER由三个联合学习目标组成,即视图内重建、交叉视图对比学习和交叉视图双重预测。为了清楚起见,我们将首先介绍建议的损失函数,然后详细说明每个目标。
图二。COMPLETER概述。在图中,双视图数据被用作展示。如图所示,我们的方法包含三个联合学习目标,即视图内重建、跨视图对比学习和跨视图双重预测。具体地说,视图内重建目标旨在以最小的重建损失将所有视图投影到视图特定的空间中。跨视图对比学习目标通过最大化
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2之间的互信息来实现。跨视图对偶预测目标利用两个映射
G
(
1
)
G^{(1)}
G(1)和
G
(
2
)
G^{(2)}
G(2)通过最小化条件熵
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)从另一个视图恢复一个视图。
3.1 目标函数
在不丧失一般性的情况下,我们以双视图数据为例。给定n个实例的数据集
X
ˉ
=
{
X
ˉ
1
,
2
,
X
ˉ
1
,
X
ˉ
2
}
\bar{\mathbf{X}} = \{ \bar{\mathbf{X}}^{1,2}, \bar{\mathbf{X}}^1, \bar{\mathbf{X}}^2\}
Xˉ={Xˉ1,2,Xˉ1,Xˉ2}
X
ˉ
1
,
2
\bar{\mathbf{X}}^{1,2}
Xˉ1,2,
X
ˉ
1
\bar{\mathbf{X}}^{1}
Xˉ1,
X
ˉ
2
\bar{\mathbf{X}}^{2}
Xˉ2分别表示在两个视图中呈现的示例,仅第一个视图和仅第二个视图。设m是完整的样本
X
ˉ
1
,
2
\bar{\mathbf{X}}^{1,2}
Xˉ1,2的数据大小,
X
v
\mathbf{X}^v
Xv是
X
ˉ
1
,
2
\bar{\mathbf{X}}^{1,2}
Xˉ1,2的第v个视图,那
X
ˉ
1
,
2
=
{
X
1
,
X
2
}
\bar{\mathbf{X}}^{1,2}=\{ {\mathbf{X}}^1, {\mathbf{X}}^2\}
Xˉ1,2={X1,X2}.
根据上述定义,我们提出以下目标函数:
其中
L
c
l
\mathcal{L}_{cl}
Lcl、
L
p
r
e
\mathcal{L}_{pre}
Lpre和
L
r
e
c
\mathcal{L}_{rec}
Lrec分别是跨视图对比损失、双重预测损失和视图内重建损失。参数
λ
1
λ_1
λ1和
λ
2
λ_2
λ2分别是
L
p
r
e
\mathcal{L}_{pre}
Lpre和
L
r
e
c
\mathcal{L}_{rec}
Lrec的平衡因子。在我们的实验中,我们简单地将这两个参数固定为0.1。
3.1.1 视图内重建
对于每个视图,我们通过一个自动编码器来学习潜在的表示
Z
v
\mathbf{Z}^v
Zv,方法是最小化
其中
X
t
v
\mathbf{X}^v_t
Xtv表示
X
v
\mathbf{X}^v
Xv的第t个样本。
f
(
v
)
f^{(v)}
f(v)和
g
(
v
)
g^{(v)}
g(v)分别表示第v个视图的编码器和解码器。因此,第
t
t
t个样本在第
v
v
v个视图中的表示由
其中
Z
v
\mathbf{Z}^v
Zv表示
X
v
\mathbf{X}^v
Xv的表示并且
v
∈
{
1
,
2
}
v∈\{1,2\}
v∈{1,2}。应该指出的是,自动编码器结构有助于避免琐碎的解决方案。
3.1.2 跨视图对比学习
跨视图对比学习:在
L
r
e
c
\mathcal{L}_{rec}
Lrec参数化的潜在空间中,我们进行对比学习,以学习不同视图之间共享的共同表示。不同于大多数现有的对比学习研究[9,30]学习表示
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2通过最大化互信息的下界,我们直接最大化不同视图的表示之间的互信息。从数学上讲,
其中
I
I
I表示互信息,
H
H
H是信息熵,在我们的实验中,参数
α
α
α被设置为9以正则化熵。我们根据以下目标设计这一目标。一方面,从信息论上讲,信息熵是一个事件传达的平均信息量[3]。因此,较大的熵
H
(
Z
i
)
H(\mathbf{Z}^i)
H(Zi)表示信息量更大的表示
Z
i
\mathbf{Z}^i
Zi。另一方面,
H
(
Z
1
)
H(\mathbf{Z}^1)
H(Z1)和
H
(
Z
2
)
H(\mathbf{Z}^2)
H(Z2)的最大化将避免将所有样本分配到同一个聚类的琐碎解决方案。
为了表述
I
(
Z
t
1
,
Z
t
2
)
I(\mathbf{Z}^1_t, \mathbf{Z}^2_t)
I(Zt1,Zt2),我们首先定义变量
z
z
z和
z
’
z’
z’的联合概率分布
P
(
z
,
z
′
)
\mathcal{P(z, z^′)}
P(z,z′)。由于softmax函数堆叠在编码器的最后一层,
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2的每个元素可以被视为过簇类概率,如[13,15,34]。换句话说,
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2可以理解为两个离散的聚类分配变量
z
z
z和
z
′
z^′
z′在D个“类”上的分布,其中D是
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2的维数。因此,
P
(
z
,
z
′
)
\mathcal{P(z, z^′)}
P(z,z′)被定义为
P
∈
R
D
×
D
\mathbf{P} ∈ \mathcal{R}^{D×D}
P∈RD×D,即,
设
P
d
\mathbf{P}_d
Pd和
P
’
d
\mathbf{P}’_d
P’d表示边际概率分布
P
(
z
=
d
)
P(z = d)
P(z=d)和
P
(
z
′
=
d
′
)
P(z^′ = d^′)
P(z′=d′),它们可以通过对联合概率分布矩阵
P
\mathbf{P}
P的第
d
d
d行和第
d
’
d’
d’列求和来获得。期望
z
z
z和
z
’
z’
z’具有同等的重要性,
P
\mathbf{P}
P进一步通过
(
P
+
P
T
)
/
2
(\mathbf{P}+\mathbf{P}^T)/2
(P+PT)/2计算。对于离散分布,等式(4)给出如下:
其中
P
d
d
’
\mathbf{P}_{dd’}
Pdd’是
P
P
P的第
d
d
d行和第
d
’
d’
d’列的元素,
α
α
α是等式(4)中定义的熵的平衡参数。等式(4)到等式(6)中的细节在补充材料中提出
3.1.3 跨视图对偶预测
为了推断缺失的视图,我们提出了如图2所示的双重预测机制。具体地,在由神经网络参数化的潜在空间中,视图特定表示将由另一个通过最小化熵
H
(
Z
i
∣
Z
j
)
H(\mathbf{Z}^i|\mathbf{Z}^j)
H(Zi∣Zj)来预测,其中i=1,j=2或i=2,j=1。这种双重预测机制具有如图1中详细阐述的理论解释。简而言之,
Z
i
\mathbf{Z}^i
Zi完全由
Z
j
\mathbf{Z}^j
Zj决定当且仅当条件熵
H
(
Z
i
∣
Z
j
)
=
−
E
P
Z
i
,
Z
j
[
l
o
g
P
(
Z
i
∣
Z
j
)
]
=
0
H(\mathbf{Z}^i|\mathbf{Z}^j) = −\mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{P}(\mathbf{Z}^i|\mathbf{Z}^j)] = 0
H(Zi∣Zj)=−EPZi,Zj[logP(Zi∣Zj)]=0。为了解决这个目标,一种常见的近似方法是引入变分分布
Q
(
Z
i
∣
Z
j
)
\mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j)
Q(Zi∣Zj)并最大化
E
P
Z
i
,
Z
j
[
l
o
g
Q
(
Z
i
∣
Z
j
)
]
\mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j)]
EPZi,Zj[logQ(Zi∣Zj)],其是
E
P
Z
i
,
Z
j
[
l
o
g
P
(
Z
i
∣
Z
j
)
]
\mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{P}(\mathbf{Z}^i|\mathbf{Z}^j)]
EPZi,Zj[logP(Zi∣Zj)]的下界,即,
这种变分分布
Q
\mathcal{Q}
Q可以是任何类型,如高斯分布[7]和拉普拉斯分布[55]。在实践中,我们简单地假设分布
Q
\mathcal{Q}
Q为高斯分布
N
(
Z
i
∣
G
(
j
)
(
Z
j
)
,
σ
I
)
\mathcal{N}(\mathbf{Z}^i| G(j) (\mathbf{Z}^j) , σ\mathbf{I})
N(Zi∣G(j)(Zj),σI),其中
G
(
j
)
(
⋅
)
G^{(j)}(·)
G(j)(⋅)可以是将
Z
j
\mathbf{Z}^j
Zj映射到
Z
i
\mathbf{Z}^i
Zi的参数化模型,
σ
I
σ\mathbf{I}
σI是方差矩阵。通过忽略从高斯分布导出的常数,最大化
E
P
Z
i
,
Z
j
[
l
o
g
Q
(
Z
i
∣
Z
j
)
]
\mathbb{E}_{P_{Z^i,Z^j} }[log \mathcal{Q}(\mathbf{Z}^i|\mathbf{Z}^j)]
EPZi,Zj[logQ(Zi∣Zj)]等价于
对于给定的双视图数据集,我们还具有
需要指出的是,上述损失可能导致没有视图内重建损失的平凡解,即
Z
1
\mathbf{Z}^1
Z1和
Z
2
\mathbf{Z}^2
Z2等价于相同的常数。模型收敛后,很容易通过上述对偶映射从
Z
ˉ
j
\bar{\mathbf{Z}}^j
Zˉj预测缺失的表示
Z
ˉ
i
\bar{\mathbf{Z}}^i
Zˉi ,即,
Z
ˉ
j
\bar{\mathbf{Z}}^j
Zˉj是
X
ˉ
j
\bar{\mathbf{X}}^j
Xˉj的特征表示。
3.2 实现细节
如图2所示,COMPLETER由两个训练模块组成,即两个视图特定自动编码器和两个跨视图预测网络。对于这两个模块,我们简单地采用一个全连接网络,其中每一层后面都是一个批处理规范化层和一个ReLU层。softmax激活函数用于编码器和预测模块的最后一层。在补充材料中,已经介绍了我们模型的所有细节。
在训练阶段,我们使用完整的数据
X
ˉ
1
,
2
\bar{\mathbf{X}}^{1,2}
Xˉ1,2以端到端的方式训练COMPLETER。具体来说,我们在前100个时期通过
L
c
l
\mathcal{L}_{cl}
Lcl和
L
r
e
c
\mathcal{L}_{rec}
Lrec训练自动编码器,以稳定双重预测的训练。然后,我们用
L
\mathcal{L}
L训练整个网络400个epochs。一旦网络收敛,我们将整个数据集馈送到网络中,以获得所有视图的表示,包括缺失的那些。之后,通过简单地将所有特定于视图的表示连接在一起而获得的公共表示被进一步馈送到k-means中,以获得像传统方式一样的聚类结果[1, 10, 22, 25, 26, 32, 39, 42, 43, 48, 49, 53]。
4.实验
在本节中,我们在四个广泛使用的多视图数据集上评估所提出的COMPLETER方法,并比较了10种多视图聚类方法。
4.1 实验设置
我们的实验中使用了四个广泛使用的数据集。简而言之,Caltech101-20[24]由20个对象的2386张图像组成,具有HOG和GIST特征的视图。Scene-15[6]由分布在15个场景类别中的4485幅图像组成,具有PHOG和GIST特征。LandUse-21[50]由21个类别的2100幅卫星图像组成,具有PHOG和LBP特征。噪声MNIST[42]使用原始70k MNIST图像作为视图1,随机选择具有高斯白噪声的类内图像作为视图2。由于大多数基线无法处理如此大的数据集,我们只能使用由10k验证图像和10k测试图像组成的噪声MNIST子集。
为了评估处理不完整多视图数据的性能,我们通过随机移除一个视图来随机选择一些实例作为不完整数据。缺失率η定义为
η
=
(
n
−
m
)
/
n
η = (n − m)/n
η=(n−m)/n,其中m是完整示例的数量,n是整个数据集的数量。为了进行综合分析,使用了三种广泛使用的聚类度量,包括归一化互信息(NMI)、准确度(ACC)和调整后的兰德指数(ARI)。这些指标的值越高表示聚类性能越好。
我们在PyTorch 1.2[31]中实现了我们的COMPLETER,并在带有NVIDIA 2080Ti GPU的标准Ubuntu-18.04操作系统上进行了所有评估。我们使用带有默认参数的Adam optimizer[18]来训练我们的模型,并将初始学习率设置为0.0001。在所有数据集上,批处理大小设置为256,最大训练时期固定为500。对于所有数据集,熵参数
α
α
α固定为9,折衷超参数
λ
1
λ_1
λ1和
λ
2
λ_2
λ2固定为0.1。在我们的实现环境中,COMPLETER在Caltech101-20上训练一个模型大约需要60秒,在Scene-15上训练80秒,在LandUse-15上训练50秒,在NoisyMNIST上训练500秒。
4.2 与SOTA的比较
我们将COMPLETER与10种多视图聚类方法进行了比较,包括深度典型相关分析(DCCA)[1]、深度典型相关自动编码器(DCCAE)[42]、二进制多视图聚类(BMVC)[52]、自动编码器网络(AE2-Nets)中的自动编码器[51]、部分多视图聚类(PVC)[22]、高效有效的正则化不完全多视图聚类(EERIMVC)[26]、双对齐不完全多视图聚类(DAIMC)[10]、不完全多模态可视数据分组(IMG)[53]、统一嵌入对齐框架(UEAF)[43]和扰动导向不完全多视图聚类(IMC)[53]。前四种方法只能处理完整的多视图数据,因此我们用同一视图的平均值来填充缺失的数据。对于所有方法,我们使用推荐的网络结构和参数进行公平比较。简而言之,对于基于CCA的方法(即DCCA和DCCAE),我们将隐藏表示维度固定为10。对于BMVC,我们将二进制代码的长度固定为128。对于EERIMVC,我们利用“高斯核”来构造核矩阵,并寻求从
2
−
15
2^{−15}
2−15到
2
15
2^{15}
215的最优λ,区间为
2
3
2^3
23。
我们在两种设置中测试了所有方法,即缺失率η=0.5(不完整表示)和η=0(完整表示)。平均聚类结果是通过用五次随机初始化和数据集分区重复每种方法获得的。
如表1所示,COMPLETER在所有四个数据集上都以较大的性能优势显著优于这些最先进的基线。在不完整设置中,就NMI而言,COMPLETER在Caltech101-20上超过最佳基线3.07%,在Scene-15上超过4.37%,在NoisyMNIST上超过14.68%。此外,就ARI而言,COMPLETER比Caltech101-20和NoisyMNIST的最佳基线性能提高了50%以上。在完整设置中,COMPLETER也显著优于几乎所有基线。由于我们的对比学习和双重预测的统一理论框架,令人鼓舞的表现证明了COMPLETER的有前途的代表性。
表1。四个具有挑战性的数据集上的聚类性能比较。“-”表示由于内存不足而导致的不可用结果。第一/第二最佳结果用红色/蓝色表示。
4.3 不同缺失率下的性能
为了进一步研究我们方法的有效性,我们通过在Caltech101-20上将缺失率η从0变化到0.9,间隙为0.1来进行实验。当缺失率为0.9时,整个训练数据的大小小于一个数据batch的大小,因此我们将批大小减少到128。从图3中的结果,人们可以观察到:i)COMPLETER显著优于所有所有缺失率设置中的测试基线;ii)随着丢失率的增加,所比较方法的性能下降比我们的方法大得多。例如,COMPLETER和PIC在η=0时的NMI分别为0.6806和0.6793,而随着缺失率的增加,COMPLETER明显优于PIC。
图3.不同缺失率(
η
η
η)的Caltech101-20的性能比较。
4.4 参数分析和消融实验
在本节中,我们从两个角度分析Caltech101-20数据集上的COMPLETER,即参数敏感性分析和消融研究。在评价中,缺失率
η
η
η固定为0.5。
我们的方法包含三个用户指定的参数,即熵参数
α
α
α、预测权衡参数
λ
1
λ_1
λ1和重建权衡参数
λ
2
λ_2
λ2。在接下来的研究中,我们首先通过将
λ
1
λ_1
λ1和
λ
2
λ_2
λ2固定为0.1并改变
α
α
α的值来研究
α
α
α、表示的信息熵
H
(
Z
i
)
H(Z^i)
H(Zi)和聚类性能之间的关系。如图5所示,信息熵随
α
α
α逐步增长。具体来说,随着信息熵的增加(从左到右),聚类性能(ACC、NMI和ARI)先提高后降低。原因可能是由于以下几个方面。一方面,增加的熵(表示中包含的信息)将放大互信息,这进一步提高了聚类性能。另一方面,随着α的增加,过度信息表示将抑制等式(4)中的互信息项然后一致性降低。
图5.Caltech101-20上COMPLETER随熵
α
α
α增加的聚类结果。x轴表示
α
α
α,左右y轴分别表示聚类性能和信息熵。
为了评估
λ
1
λ_1
λ1和
λ
2
λ_2
λ2的影响,我们在{0.01,0.1,1,10,100}的范围内改变它们的值。如图4所示,我们的方法对
λ
1
λ_1
λ1的选择是鲁棒的。此外,
λ
2
λ_2
λ2的良好选择将显著提高COMPLETER的性能。
图4.Caltech101-20的参数分析。
为了进一步验证COMPLETER中每个模块的重要性,我们进行了以下消融研究。详细地,设计了以下七个实验来隔离对比损失
L
c
l
\mathcal{L}_{cl}
Lcl、重建损失
L
r
e
c
\mathcal{L}_{rec}
Lrec和双重预测损失
L
p
r
e
\mathcal{L}_{pre}
Lpre的影响。如表2所示,所有损失项在COMPLETER中都扮演着不可或缺的角色。需要指出的是,单独优化双预测损失
L
p
r
e
\mathcal{L}_{pre}
Lpre可能会导致琐碎的解决方案。为了解决这个问题,我们在每个全连接层中添加一个批量规范化层,并报告相应的结果。
4.5 理论结果的可视化验证
在本节中,我们进行实验来验证图1中给出的理论结果。通过可视化恢复的视图和公共表示,在有噪声的MNIST数据集上进行实验。在实验中,丢失率η固定为0.5。与大多数现有的不完整多视图方法不同,COMPLETER可以显式地推断缺失视图的表示。结果,可以通过解码器获得原始空间中的相应重建。为了示出COMPLETER的可恢复性,图6直观地示出了一些恢复的来自Noisy MNIST的例子。从结果中,人们可以得出以下观察结果。在前三行中,恢复的图像(第3行)与完整的图像(第1行)非常相似,同时具有与丢失视图(第2行)相同的干净背景。在底部三行中,即使COMPLETER从具有干净而不是嘈杂背景的图像中恢复了丢失的图像,也可以获得类似的观察结果。简而言之,COMPLETER可以恢复重要信息,同时丢弃本例中的噪声等模糊特征。
图6.噪声MNIST上的数据恢复。第1行和第4行是完整视图,第2行和第5行是缺失视图,第3行和第6行是从完整视图恢复的结果。
应该注意的是,该示例中的语义信息和噪声背景可以被视为两个视图的一致性和不一致性。因此,上述观察的原因是双重的。一方面,由于互信息的最大化,恢复的视图将包含两个可用视图的共享信息(语义信息而不是噪声)。另一方面,为数据恢复设计的条件熵最小化可以巧妙地丢弃不同视图中的不一致信息。结果,丢失视图中的噪声将在恢复期间被抑制。这验证了我们理论的有效性。除了上述可视化,我们还演示了所学公共表征的t-sne [27]可视化。如图7所示,随着epoch的增加,所学习的表示变得更加紧凑和有区别。
图7.随着训练迭代的增加,噪声MNIST数据集上的t-sne可视化。
4.6 收敛性分析
在本节中,我们通过报告损失值和相应的聚类性能随着epoch的增加来研究完成器的收敛性。如图8所示,可以观察到损耗在前200个epoch显著降低,同时ACC、NMI和ARI连续增加。
图8.Caltech101-20上epoch增加的COMPLETER的聚类性能。x轴表示训练时期,左右y轴分别表示聚类性能和相应的损失值。
5.讨论
为了从给定的多视图数据中学习公共表示,其中一些视图缺失,本文提出了一种包含严格的数学动机和信息论解释的COMPLETER。简而言之,我们将一致性学习视为一枚硬币的两面,而不是两个独立的问题。这样一个统一的框架将为社区提供理解一致性学习和数据恢复的新见解。在未来,我们计划进一步探索我们的理论框架在其他多视图学习任务中的潜力,例如object ReId。此外,将其扩展到处理图像翻译任务也是有希望的。