文章详情

短信预约-IT技能 免费直播动态提醒

请输入下面的图形验证码

提交验证

短信预约提醒成功

OpenAI Preparedness团队首席Aleksander Madry:机器学习模型的内部计算如何将输入转化为预测?

2024-11-29 23:33

关注

考虑一个标准的ResNet50模型,该模型经过训练用于图像分类任务。我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签?或者,GPT-3中的注意力头如何contribute到下一个标记的预测?理解这些模型组件——包括滤波器或头等架构“构建块”——如何集体塑造模型行为(包括模型失败)是困难的。毕竟,深度网络在很大程度上是黑匣子——由模型组件之间高度非线性交互构成的复杂计算图。

受到这一挑战的启发,解释性工作的一个方向旨在通过表征单个组件的功能,例如视觉模型中的曲线检测器和对象特定滤波器,或语言模型中的知识神经元和归纳头,来阐明内部模型计算。作为这一工作方向的一部分开发的方法旨在以各种方式“放大”特定的模型行为和/或组件。

改变模型组件如何集体改变个体预测?

显式建模模型计算

为了解决上述问题,研究人员引入了一个称为组件建模的任务。组件建模的目标是构建一个简单且可解释的估算器,以了解模型的输出如何响应于对其组件的干预或消除。直观地说,这里的关键想法(如下图所示)是,如果我们真正理解模型组件对预测的贡献,我们应该能够估计如果我们改变一些组件,预测将如何改变

这项研究侧重于组件建模的一种特殊“线性”情况,称之为组件归因。如下所示,对于给定模型预测的组件归因首先为每个模型组件分配一个分数,然后估计消除一组组件的反事实效果,作为它们相应分数的总和:

组件归因很简单——它将给定的预测分解为来自每个模型组件的加法贡献。它们也是可解释的,因为分配给组件的“分数”表示该组件对感兴趣的预测的“贡献”(同时摆脱了模型的内部计算的复杂性)。

此外,研究人员在数据建模工作中探索了一种类似的思路——通过预测来理解,其目标是将模型行为预测为训练数据的函数。组件模型和组件归因可以被看作是“组件空间”中的数据模型和数据归因(或线性数据建模)的类比,而不是“训练数据集空间”。

通过回归估计组件归因(COAR)

事先不清楚组件归因是否足够表达深度网络中从组件到预测的(固有的非线性)映射。然而,研究人员发现在视觉模型(例如ImageNet ViTs)和语言模型(例如Phi-2)上,实际上可以计算准确的组件归因——即,线性性足以预测组件消除的效果!如下所示:

为了计算这些归因(即上面的系数向量w),研究人员提出了一种简单的方法——称为COAR(通过回归进行组件归因),它将此任务转化为标准的监督学习问题,并分两步解决:

COAR归因准确吗?

回到在ImageNet数据集上训练的ResNet-50模型,将这个模型视为由22,720个组件组成,每个组件对应一个卷积滤波器。能否使用COAR来预测这个模型将如何对组件消除做出响应(在这种情况下,消除对应于将给定一组滤波器的参数置零)?

为了回答这个问题,研究人员使用COAR来估计ImageNet验证集中每个50,000个示例的组件归因。结果是一组50,000个组件归因—每个归因估计每个组件对相应ImageNet示例上模型预测的贡献。

为了确定结果的归因是否有效,研究人员简单地检查组件归因是否准确估计了(随机地)消除模型输出上的随机子集的组件的效果。

例如,上图聚焦在一个单独的ImageNet示例上。每个点对应于一组(随机的)模型组件。给定点的y值是消除该组件集的反事实效果(即,将相应参数设置为零);x轴是对该反事实效果的估计,由示例的组件归因给出。随机组件消除的基本事实和归因估计的效果展现了高达0.70的高相关性,这意味着至少对于这个示例,组件归因在预测模型行为方面相当不错!

在下图中,将其转化为一个综合分析。也就是说,评估了所有验证示例中基本事实消除效果和基于归因的估计之间的平均相关性——为了测试COAR的限制,研究人员还改变了消除的组件比例,并研究了COAR的性能变化。作为基线,研究人员将几种“组件重要性”的概念调整到组件归因设置中。

总的来说,研究人员发现COAR在数据集和模型中一直以很大的优势 consistently outperforms多个归因基线。

译自(有删改):https://gradientscience.org/modelcomponents-editing/


谁是Aleksander Mądry?


Aleksander Mądry是波兰裔计算机科学家,麻省理工学院(MIT)教授,OpenAI Preparedness团队首席科学家。Aleksander Mądry的研究涉及机器学习、优化和图论,着重于操作化技术,使得机器学习算法能够安全地在现实世界中部署。他工作的主要焦点之一是开发能够处理对抗攻击的强大而高效的算法。这一研究方向导致了一种使神经网络更加抗对抗攻击和剖析对抗样本广泛存在根源的方法的开发。他还致力于基于连续优化的方法来解决组合优化问题,例如最大流问题和二部图匹配问题。

Aleksander Mądry在2006年和2007年分别从弗罗茨瓦夫大学获得了计算机科学和物理学的学士学位。然后,他在MIT攻读计算机科学博士学位,于2011年完成。他的博士论文“从图到矩阵,再到图:图算法的新技术”获得了ACM博士论文奖荣誉提名和MIT乔治·M·斯普劳尔斯奖,被评为计算机科学领域的最佳论文。随后,他曾在微软研究新英格兰分部担任博士后研究员,并在瑞士洛桑联邦理工学院担任教职,然后加入了麻省理工学院电气工程和计算机科学系的教职

Aleksander Mądry因其研究贡献获得了许多奖项和荣誉,包括NSF职业生涯奖。他的工作曾多次获得诸如IEEE计算机科学基础研究会议(FOCS)等会议的最佳论文奖。2019年,他被欧洲理论计算机科学协会授予普雷斯伯格奖。

来源:AIGC社区内容投诉

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

软考中级精品资料免费领

  • 历年真题答案解析
  • 备考技巧名师总结
  • 高频考点精准押题
  • 2024年上半年信息系统项目管理师第二批次真题及答案解析(完整版)

    难度     813人已做
    查看
  • 【考后总结】2024年5月26日信息系统项目管理师第2批次考情分析

    难度     354人已做
    查看
  • 【考后总结】2024年5月25日信息系统项目管理师第1批次考情分析

    难度     318人已做
    查看
  • 2024年上半年软考高项第一、二批次真题考点汇总(完整版)

    难度     435人已做
    查看
  • 2024年上半年系统架构设计师考试综合知识真题

    难度     224人已做
    查看

相关文章

发现更多好内容

猜你喜欢

AI推送时光机
位置:首页-资讯-后端开发
咦!没有更多了?去看看其它编程学习网 内容吧
首页课程
资料下载
问答资讯