A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms

  • English:

A Meta-Transfer Objective for Learning to Disentangle Causal Mechanisms

Abstract

本文提出利用元学习目标,最大限度地提高改变分布的迁移速度,以学习如何模块化获取知识。特别是,我们关注如何在与因果关系一致的情况下将联合分布纳入适当的条件。如果这可行,假设分布的变化是局部化的(distributions are localized)(例如由于对其中一个变量的干预而导致其中一个边缘marginal)。我们证明,在这种假定的因果机制的局部变化的情况下,正确的因果图将趋向于仅有几个具有非零梯度的参数,即需要调整的参数(修改变量的参数)。实验观察到这会导致自适应更快,并利用这一性质来定义一个元学习替代评分,它除了连续的图参数化外,还将有利于正确的因果图。最后,我们考虑到AI智能体方面(例如,机器人自主发现其环境),我们考虑了相同的目标如何能够发现因果变量本身,因为观察到的低水平变量没有因果意义。双变量实例中的实验验证了所提出的思想和理论结果。

Introduction

假设数据是独立同分布的(IID)。同样,模型的性能通常使用来自同一个分布的测试样本进行评估,假设他们代表了所学习系统的使用情况。虽然,从统计的角度对这些假设进行了良好的分析,但是在许多实际情况下难以应用。例如:根据一家医院的历史数据进行训练的医疗诊断系统对来自另一家医院的病人可能表现效果不好,原因是分布情况发生了变化。理论情况下,我们希望我们的模型能够很好地泛化,并且能够迅速适应分布外的数据。

然而,为了能够成功转移到新的分布上,人们就需要更多的数据。在本文中,我们不关注数据分布的假设,而关注数据分布如何变化(例如:从训练分布到转移分布时,可能导致某些agents的action)。我们关注的假设是,当知识用适当的模块化的方式来表示的时候,只有一个或者几个模块发生改变,这些变化是稀疏的。当分布变化是由于一个或多个agnet的action所导致时,这一点尤为重要,因为agent在特定的地点和时间进行干预,这体现在因果关系文献中的讨论的干预措施的形式上,即其中一个因果变量被限制在一个特定值活一个随机变量上。一般来说,agent很难一次影响多个潜在的因果变量,虽然本文不是关于agent 学习本身,但这是我们探索的一个性质,以帮助我们发现这些变量以及他们之间的因果关系。在这个时候,因果图就是一个强大的工具,因为他可以告诉我们干预变量分布中的扰动将如何传播到所有其他变量并影响他们的分布。

通常情况,因果关系的结构不会提前知道。因果发现的问题通常需要获得因果图,然而这通常只有在强有力的假设下才能实现。一种假设是,已经学会捕捉真正的基础数据生成过程的正确结构的learner应该能够泛化到某种特定方式对结构进行扰动的情况。这可以通过考虑温度和海拔高度的例子来说明:简单来说就是,一个learner通过学习来自于瑞士的数据,对于来自于像荷兰这种山地较少国家的分布数据进行测试的时候,结果仍然有效。因此,建议使用预测模型的分布外的鲁棒性来指导对实际因果结构的推断。

那么如何利用局部变化的假设呢?正如我们在理论上进行解释并在此处进行实验验证时,如果我们拥有正确的知识的表示,那么从在训练分布上预训练过的模型开始,应该能够很快地适应迁移的数据分布。之所以出现这种情况,是因为我们假设置信数据生成过程是作为独立机制的一部分而获得的,并且从训练分布转到迁移分布时,几乎不需要改变置信机制和参数。因此,获取对应的知识分解的模型仅需要进行一些更新和示例,就可以适应迁移分布。如下所示,在不变的参数上的预期梯度将接近0(如果模型已经在训练分布上很好的训练了),因此在适应迁移分布的过程中,有效搜索空间将大大减少,这可以加快适应的过程,正如实验所体现的那样。因此,基于正确的知识表示空间的微小变化的假设,我们可以定义一个衡量适应(adaptation)速度的元学习目标,即一种表示后悔(regret)的形式,用于优化知识的表示,分解和结构化的方式

回到前面温度和海拔高度的例子:如果收到了来自于荷兰的分布外的数据,由于收集了少量来自于荷兰的迁移样本,因此我们期望该模型能够更快的适应。类似于鲁棒性,可以使用自适应速度来知道对于当前问题的真正的因果结构的推断,并可能与因果结构有关的其他信号源一起推断。

主要的贡献:我们首先在合成数据上验证,当在真实的二变量因果图(learner不知道)上执行某些干预后,当提供样本数据时,能够正确捕捉到潜在因果结构的模型的适应速度更快。这表明了适应速度可以作为分数充分地评估learner对于基础因果图的拟合程度。然后,我们使用因果图的平滑参数化来以端到端的方式直接优化此分数。最后,我们表明,在未知混合变量的情况下,可以利用分数来区分正确的因果变量。

Which is Cause and Which is Effect?

To be continued

-------The end of this article  Thank you for your reading-------