IJCAI 2019
摘要
在部分多标签学习 (PML) 中,每个实例都与包含多个相关标签和其他误报标签的候选标签集相关联。 PML 问题最具挑战性的问题是训练过程容易受到标签噪声的影响。我们观察到,最先进的 PML 方法要么无法从候选标签中消除正确标签的歧义,要么无法充分提取标签相关性。为了填补这一空白,本文提出了一种两阶段的判别和相关部分多标签学习 (DRAMA) 算法。在第一阶段,利用特征流形为每个标签学习一个置信度值,这表明标签正确的可能性有多大。在第二阶段,引入梯度提升模型以拟合标签置信度。具体来说,为了探索标签相关性,我们在每个提升轮次中通过先前引出的标签来增加特征空间。对各种现实世界数据集的广泛实验清楚地验证了我们提出的方法的优越性。
1、介绍
在多标签学习 (MLL) 任务中,一个对象可以同时与多个标签相关联。许多最近的工作见证了 MLL 在许多研究领域的快速发展,例如。文本分类 [Lin et al., 2018]、图像/视频注释 [Y ang et al., 2018]、音乐情感识别 [Trohidis et al., 2008] 和基因功能预测 [Fodeh and Tiwari, 2018]。
传统 MLL 任务中的常见假设是训练实例被精确注释。不幸的是,在许多现实世界的应用程序中,很难获得无噪声标签,但是可以访问一组候选标签。这种情况被称为部分多标签(PML)学习,由 [Xie and Huang, 2018] 形式化。形式上,令 X = Rp 为 d 维特征空间,Y = {y1, y2, ...yq} 为 q 维标签空间。给定一个 PML 训练数据集 D = {(xi, Yi)|1 ≤ i ≤ ∗Corresponding Author。 n} 其中 xi ∈ X 是实例向量,Yi ⊆ Y 是候选标签集,PML 的目标是从 D 中学习一个多标签预测器 f : X 7→ Y。实例 xi 的真值标签集 ˆYi 隐藏在其候选标签集中,即 ˆYi ⊆ Yi,并且对预测器不可见。
最直观的方法是将所有候选标签视为有效标签。然后可以通过任何现成的多标签学习算法来解决 PML 问题,例如Binary Relevance (BR) [Zhang and Zhou, 2014], Classifier Chains [Liu et al., 2017], CPLST [Chen and Lin, 2012] 等等。然而,这种策略忽略了候选标签集中的误报标签,这可能导致标签相关性提取不足,进而导致性能退化。
为了解决这个问题,提出了一些 PML 技术。一些方法专注于通过为每个候选标签分配一个置信度值来估计它是正确标签的可能性来消除歧义。例如,Xie 和 Huang [2018] 提出了两种有效的方法 PML-lc 和 PMLfp,其中通过最小化置信度加权排名损失来计算置信度分数。尽管如此,当假阳性标签的比例很高时,由于替代优化策略,算法容易出错。 PARTICLE [Fang and Zhang, 2019] 利用特征空间中的最近邻通过迭代标签传播过程识别具有高标签置信度的可信标签。然后它应用成对标签排序技术来诱导多标签预测器。然而,它只提取二阶标签相关性,因此可能会在复杂数据集上实现退化的性能。 fPML [Yu et al., 2018] 是另一种流行的 PML 方法,专注于探索标签相关性。它遵循经典的标签嵌入范式,只能处理标签空间高度稀疏的数据集。我们观察到现有的 PML 方法关注候选标签集消歧或标签相关性提取。因此,它们的预测性能是有限的。
为了弥补这一差距,我们提出了一种新的两阶段 PML 方法,称为 DiscRiminative 和相关部分多标签学习 (DRAMA)。在第一阶段,我们在特征流形和候选标签集的指导下生成一个实值标签置信度矩阵。为了达到消歧的目的,我们做了平滑假设 [Zhu et al., 2005],即在 feaProceedings of the feaProceedings of the T goy-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19) ture space倾向于共享相同的标签。基于我们的假设,特征空间和标签空间具有相似的局部拓扑结构,可以通过每个实例与其最近邻之间的稀疏重建关系来捕获。在第二阶段,基于标签置信度,我们为我们提出的多输出回归问题提出了一种梯度提升算法。在每个boosting轮中,学习到的标签被用来扩充特征空间,从而可以有效地提取标签相关性以提高泛化性能。广泛的实验结果表明,我们提出的方法优于其他最先进的部分多标签学习算法。
本文的其余部分安排如下。下一节简要讨论部分多标签学习的一些相关工作。第 3 节介绍了拟议 DRAMA 的技术细节。第 4 节报告了我们在各种真实世界数据集上的实验结果。最后,在最后一节中提供了结束语。
2、相关工作
部分多标签学习的目标是处理多标签学习中的不精确标注问题。因此,PML 集成了两个流行的学习框架:多标签学习和部分标签学习。
部分标签学习(PLL)是一个弱监督的多类学习框架,其中每个实例都由一组候选标签标记。请注意,相关标签保证包含在候选标签集中,其余标签称为误报标签或干扰标签。为了从这些模棱两可的例子中学习,一种直观的策略是聚合输出以优化目标,例如边际 [Nguyen 和 Caruana,2008 年] 或可能性 [Jin 和 Ghahramani,2002 年; Cour et al., 2011] 训练示例。问题转换是另一种流行的策略,被许多算法采用。例如,[Zhang et al., 2017; Wu and Zhang, 2018] 从原始的部分标签数据集构建多个二进制标签数据集,然后将 PLL 任务分解为一组二进制学习任务。其他数据转换方法从特征空间学习标签结构 [Zhang and Y u, 2015] 以获得标签为置信向量的新数值数据集。
在多标签学习 (MLL) 中,一个对象可以与多个标签相关联。它引起了不同领域研究人员的极大关注[Yang et al., 2018; Fodeh 和 Tiwari,2018 年]。 Binary Relevance [Zhang and Zhou, 2014] 是 MLL 最直接的解决方案之一,旨在将 MLL 任务分解为一系列独立的单标签分类问题。尽管计算效率很高,但 BR 忽略了标签之间的相关性,因此通常表现不佳。为了解决这个问题,提出了许多 MLL 算法,例如基于树的 [Liu and Tsang, 2017] 方法、基于嵌入的 [Yeh et al., 2017; Chen and Lin, 2012] 方法和基于增强的 [Liu et al., 2017] 算法。
显然,部分多标签学习的最大挑战是如何同时消除正确标签的歧义并利用标签相关性。为了解决这个问题,我们提出了一种有效的 PML 算法 DRAMA,它结合了 PLL 中的问题转换和 MLL 中的特征增强的概念。
3、提出方法
在本节中,我们将介绍 DRAMA 的详细信息
3.1 候选标签集消歧
对于每个示例 xi,我们假设它可以从它的最近邻居线性重建,并且稀疏重建误差可以表示如下:
此外,由于 W 中的列相互独立,我们可以获得一系列标准约束最小二乘规划问题,以最小化 E(W ),
根据平滑假设,特征空间和标签空间倾向于共享相同的拓扑结构。因此,特征流形可以转移到数字标签空间。形式上,我们可以通过以下最小化问题重构标签,
值得指出的是,方程式。 (3)精心设计。第一个约束来自多标签设置,即可能有多个相关标签。然后,通过后续约束保留原始标签信息。 U中每个元素的符号表示对应的标签是相关的还是不相关的,大小反映了相关性的相对置信度。阈值参数在我们的算法中也起着重要作用。如图 1 所示,在 δ1 较小的情况下,groundtruth 标签可以获得相对较高的正置信度,而误报标签通常会获得较低甚至负置信度。此外,相对较大的 δ2,不相关标签的置信度被迫足够负
说明我们的目标不是降维[Gao et al., 2018; 2019] 在特征空间中。实例矩阵和置信矩阵具有不同的语义信息,位于两个独立的空间中,仅共享相同的局部拓扑结构。此外,我们的消歧策略具有三个主要优点:1)所有优化问题都是标准二次规划(QP)问题,可以有效地解决; 2)逻辑标签扩展为数字标签,有助于丰富原有标签空间; 3)标签以不平等的方式处理,以防止真实标签被干扰标签淹没。
3.2 相关多标签预测器归纳
在第二阶段,我们首先将训练数据集转换为它的消歧对应物 〜D0 = {(xi, ui)|1 ≤ i ≤ n}。由于我们的新标签是数字的,我们现在必须将学习问题视为多输出回归问题。提出了许多有效的算法,例如多回归支持向量机 [Chung et al., 2015]、基于度量学习的回归器 [Liu et al., 2019] 等。然而,大多数现有的多输出回归器忽略了标签之间的相关性,因此实现了退化的性能。因此,我们引入了一种新颖的基于梯度提升的模型,该模型在每一轮提升中操纵特征空间。
形式上,我们的目标是引入一个最小化以下损失函数的回归量 F,
具体来说,在第 t 轮提升中,训练一个弱回归器 ft 以拟合 L 在 Ft−1(X) 处的负梯度,
换句话说,每个弱回归量 ft(X, ^U t−1) 都是从以下训练数据集中推导出来的,
最后,我们可以将所有弱学习器相加得到一个鲁棒的模型,
其中 T 是迭代次数。这里 λt 是学习率,可以通过以下方式计算:
在这项工作中,我们选择 CART 作为我们的助推弱学习器。由于 CART 是一个非线性模型,因此甚至可以探索复杂的标签相关性。当给定一个未见过的实例 x∗ 时,我们可以将其输入 F,然后取实值输出的符号以获得逻辑标签。
值得注意的是,我们的模型有两个主要优势:1)学习的弱回归器有助于提高我们简单 BR 模型的泛化能力; 2) 提升过程采用从粗到细的预测方式,因此随着迭代的进行,可以有效地利用标签相关性。
5 结论
本文重点研究部分多标签学习中消歧和标签相关性提取的挑战性问题。我们提出了一种新颖的两阶段判别和相关部分多标签学习 (DRAMA) 算法,该算法结合了 PLL 中的问题转换和 MLL 中的特征增强的概念。结果算法首先通过探索特征和标签流形来消除候选标签集的歧义。然后我们引入一个梯度增强回归器来利用引出的标签信息。在每一轮提升中,原始特征空间被引出的标签扩大,从而利用高阶标签相关性。我们对一系列现实世界数据集的实证研究表明,DRAMA 可以有效地处理 PML 任务。