写在前面&出发点
本文提出了一个人机协作中的规划与推理任务基准(PARTNR),旨在研究家庭活动中的人机协调。PARTNR任务展现了日常任务的特点,如空间、时间和异构agent能力约束。我们采用大型语言模型(LLMs)构建了一个半自动化的任务生成流程,并融入了循环中的模拟以进行实现和验证。PARTNR是同类基准中规模最大的,包含10万个自然语言任务,涉及60栋房屋和5819个独特物品。围绕规划、感知和技能执行等维度,对PARTNR任务上的最新大语言模型(SoTA)进行了分析。分析结果显示,SoTA模型存在显著局限性,如协调性差、任务跟踪失败以及错误恢复能力不足。当大型语言模型与人类真实用户配对时,它们所需的步骤数是两人协作的1.5倍,比单个人类多1.1倍,这凸显了这些模型有待提升的潜力。论文还进一步表明,使用规划数据对较小的大型语言模型进行微调,可以实现与体积为其9倍的大型模型相当的性能,同时在推理速度上快8.6倍。PARTNR凸显了协作式实体agents面临的重大挑战,并旨在推动该领域的研究发展。
Code: https://github.com/facebookresearch/partnr-planner
Website: https://aihabitat.org/partnr
内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球,这里包含所有你想要的。
一些介绍
想象这样一个家用机器人:它能像人与人之间的互动那样,使用自然语言与人类在日常活动中协作。这种场景需要两个关键特性:机器人与人类之间的动态协作,以及使用自然语言进行交流。当前具身人工智能(embodied AI)的基准测试通常只满足其中一个条件;要么机器人是独立运作的,要么任务不是用自然语言指定的。尽管具身人工智能领域取得了显著进展,但在评估机器人在协作环境中的表现的现实基准测试方面仍存在空白。为了弥补这一空白,我们推出了人机协作中的规划与推理任务基准(PARTNR),这是一个新颖的基准测试,用于评估具身人工智能agent在模拟室内环境中与人类在各种家庭活动上的协作能力。
PARTNR由10万个自然语言指令和与之配套的评价函数组成,重点关注四种任务类型:(1)无约束任务,其中子任务可以由任一agent以任何方式完成,(2)包含空间约束的空间任务,(3)需要按顺序执行的时间任务,以及(4)包含无法由其中一个agent完成的动作的异构任务。除了长时规划、新型部分可观察环境以及大状态和动作空间等传统挑战外,PARTNR还强调了有效协作动态(如任务分配和跟踪合作伙伴的进度)的必要性。
创建这样一个具有大规模自然语言任务和定制评价函数的基准测试面临着重大挑战。当前的基准测试通常依赖于模板化任务或由人类设计的任务和评价,这可能限制了数据集的多样性或规模。为了克服这一问题,本文提出了一种使用大型语言模型(LLMs)并结合循环模拟接地(simulation-in-the-loop grounding)的半自动化生成方法。首先,大型语言模型生成任务和评价函数,这些函数与模拟房屋中的物品和家具相关联。接下来,采用循环模拟来过滤掉幻觉和不可行的指令,并通过人工标注来增强多样性和准确性。然后,利用一套经过验证的1000条指令和评价函数以及多样化的模拟房屋,通过上下文提示引导大型语言模型创建10万个任务。
由于PARTNR包含自然语言任务,且大型语言模型(LLMs)在规划方面已展现出显著成效,我们探索了如何提示和微调LLMs,以评估它们在协作场景中的有效性。我们研究了环境可观性(即完全可观或部分可观)、集中式与分散式多智能体控制、学习到的或特权机器人技能、以及基于LLMs的规划中对3D世界信息进行接地的不同方式的影响。除了这些使用合成人类伙伴进行的自动化评估外,还进行了包含真实人类参与的评估,让人们单独执行任务、与人类伙伴一起执行任务或与LLMs指导的机器人伙伴一起执行任务。总体而言,发现LLMs在协调、任务跟踪以及处理感知和技能错误方面存在困难。虽然人类能够解决93%的PARTNR任务,但在非特权条件下,当前最先进(SoTA)的LLMs仅能成功完成30%的任务。此外,在分散式多智能体设置中,由于跟踪伙伴动作的能力较差,导致出现了多余动作,完成任务所需的步骤比单智能体多1.3倍。相比之下,在我们的包含真实人类参与的实验中,人类搭档的表现优于单独的人类,这凸显了改进LLMs协作策略的潜力。LLMs还难以从技能失败和感知接地错误中恢复,当移除特权技能和特权感知时,其性能会降低。在比较模型大小时,我们发现经过微调的较小模型Llama3.1-8B的性能与未经微调的Llama3.1-70B相当,但推理速度却快了8.6倍。在与真实人类共同参与的评估中,这一更快的推理速度发挥了重要作用,因为经过微调的模型所需步骤更少,为人类分担了更多任务。
PARTNR能够在各种协作场景中实现对具身智能体的可重复、大规模和系统性的评估。通过系统性的评估,我们揭示了当前基于LLM的规划器的关键局限性,为未来的研究指明了有趣的方向。
相关工作一览
基于语言的具身人工智能基准测试。大量关于具身人工智能中语言基准测试的工作都集中在导航或具身问答上,这些任务涉及导航和信息收集,但不需要智能体修改其环境。与本文的工作更为接近的是指令遵循基准测试,在这些基准测试中,智能体通过与环境的交互来完成通过语言描述的任务,尽管任务的多样性有限。相比之下,我们利用大型语言模型(LLMs)生成多样化的任务定义和场景初始化,并将其扩展到多智能体设置中。使用LLMs扩大任务生成的规模这一想法在最近的一些工作中得到了探索。然而,这些工作往往侧重于相对短期内的单智能体任务,而本文考虑的是长期的多智能体问题。表1将相关基准测试与PARTNR进行了比较。
具身多智能体基准测试。多项工作已经提出了具身多智能体基准测试。其中许多基准测试都集中在简单2D环境中的协调问题上,这限制了它们在现实世界场景中的应用。最近的工作开发了研究更真实环境和活动中协作的基准测试,这些基准测试关注在大型、部分可观察的3D环境中重新排列物体或家具,或在柜台空间内操作物体。然而,这些基准测试通常局限于一组预定义且数量有限的任务,这些任务往往不是用自然语言描述的,并且主要涉及物体的重新排列。相比之下,PARTNR涵盖了一个开放的任务集,每个任务都用自然语言描述,要求智能体在空间和时间的约束下重新排列物体,并要求执行只能由人类智能体完成的异构动作(例如洗碗或打开烤箱)。
Benchmark生成
我们推出了PARTNR基准测试,旨在训练和评估机器人与人类合作解决自然语言任务的能力。PARTNR涵盖了四种类型的任务:(1)无约束任务,即子任务可以由任一智能体以任何方式完成。例如,“让我们把所有脏盘子移到水槽里。”(2)空间任务,需要推理物体的空间位置。例如,“让我们把书放在书架上,彼此紧挨着。”(3)时间任务,子任务的执行顺序很重要。例如,“让我们先把餐桌上的蜡烛拿走,再把盘子端到桌上。”(4)异构任务,涉及超出机器人能力的动作。例如,“让我们在把盘子放到架子上之前先把它们洗干净。”在机器人的技能不支持洗涤的场景中,完成这项任务需要对智能体的能力进行推理。我们的基准测试包括自然语言指令和相应的评估函数,这两者都是使用大型语言模型(LLMs)大规模生成的。具体来说,我们生成了1000条经过人工验证的指令和相应的评估函数,并将它们作为即时提示示例,扩展到其他具有不同布局和物体的场景中的100000项任务。我们自动生成的一个独特之处在于,在生成循环中整合了一个实体模拟器,这大大减少了大型语言模型可能出现的幻觉和不可行动作等错误。
1 基于仿真循环的任务指令生成
尽管基于大型语言模型(LLM)的任务生成在之前的文献中已有研究,但这些生成的任务并未超出用户创建的 in-context prompts的范围。在PARTNR中,使用了基于仿真循环的生成技术,将大语言模型与环境、智能体和可用动作相结合。具体来说,在Habitat 3.0模拟器中实例化了一个仿真环境,该环境填充了HSSD数据集,包含60栋独特的房屋和5819个OVMM对象。模拟房屋被解析为房间和可用家具的列表,并与所有可用目标一起传递给大语言模型。利用这些信息,要求大语言模型在场景中生成自由形式、可行的任务,以及初始场景状态描述。例如,如果生成的任务是“清理客厅的餐具”,大型语言模型应该生成一个客厅内有多个餐具的初始场景。在这个阶段,还会向场景中添加额外的目标,以在环境中制造混乱。任务、初始状态和混乱一旦生成,就会在模拟器中实例化,并过滤掉不可行的指令。例如,如果房屋没有客厅,“清理客厅的餐具”就是无效的。同样,如果生成的任务需要模拟器不支持的动作,如折叠,则该任务会被过滤掉。通常,幻觉的产生率很高,导致大量情节被丢弃。我们观察到,在过滤掉不可行的指令后,生成指令的多样性通常受到限制。例如,大多数指令都使用相同的对象(如餐具)或类似的房间(如厨房或餐厅)。为了增加生成任务的多样性,我们进行了手动标注,以确保任务和对象的多样性,例如,通过修改指令以激发特定特征,来维持无约束、空间、时间和异构任务的平衡分布。这一过程产生了1000个经过人工标注和仿真验证的任务。
对于大规模生成而言,这种手动标注并不实际。相反,我们利用这1000条经过人工标注的指令作为提示中的示例,来扩展生成规模。向大语言模型提供房屋描述和一个示例任务,并指示它修改任务以适应新的房屋。例如,将任务“清理客厅里的所有餐具”修改为“清理卧室里的所有玩具”。这样做可以在保持原始标注指令集多样性的同时,确保在模拟器中成功实例化的高可能性。从质量上看,我们过滤或编辑了约90%的自由形式生成的指令,而只有约10%的扩展指令需要这样做。使用LLama3-70B-Instruct来生成所有指令。最后,所有任务都经过基于人类反馈的循环过滤。在这一步中,人类使用我们的基于人类反馈的工具尝试完成任务,并消除难以检测的物理上不可行的指令,比如要求一个物体同时出现在两个位置。图2概述了我们的流程。
2 评价函数生成
为了判断智能体是否成功完成了指令“清理客厅里的所有餐具”,我们需要一个评价函数来验证是否已从任何客厅中移除了所有勺子、叉子和其他餐具。然而,手动标注任务所需的所有重新排列和状态变化既耗时又由于每个任务的独特性而在大规模上难以实现。与指令生成类似,我们采用大型语言模型(LLM)来创建一个评价函数,该函数无需任何手动标注即可评估任务完成情况。具体来说,利用大型语言模型生成基于谓词的Python程序的能力,这需要使用三种类型的API:一个命题列表,指示实体之间必须满足的关系;一组依赖项,指示何时应查询命题;以及一组约束,指示命题必须如何满足。为这些组件中的每一个定义了一个富有表达力的词汇,以便对基准测试中的所有任务进行评估(例如,图3)。密切相关的评价系统包括使用PDDL或BDDL定义任务。选择构建一个新的基于Python的评价系统,因为这两个系统都无法在保持人类和大型语言模型可解释性的同时评估PARTNR任务;例如,BDDL不支持随时间变化的评估。由于PARTNR任务具有时间依赖性(例如,多步骤重新排列),因此评价函数的输入是任务执行期间模拟器状态的完整序列。评价函数返回三个指标:(1)完成百分比(PC ∈ [0, 1]),即相对于约束而言已满足的命题的百分比;(2)成功(S ∈ {True, False}),衡量任务是否成功完成,定义为S := (PC = 1);以及(3)失败解释(FE),一种人类和大型语言模型可解释的语言描述,用于说明智能体未能完成任务的原因。
使用CodeLLama-70B-instruct来生成评价函数。如图3所示,生成完美的评价函数并非易事。大型语言模型(LLM)必须根据自然语言指令和特定的模拟环境,正确分类所有可能的动作空间,这可能相当复杂。例如,在图3中,指令“把植物放在架子上”指的是“架子”,但房间里有两个架子。评价函数必须允许选择任意一个架子,同时要求放置所有植物,并最终考虑相邻关系。命题或约束中的任何错误或缺失值都会导致评价函数失效。因此,我们观察到LLM生成的错误率很高,特别是关于错误命题和时间顺序约束的错误。
为了减轻这些不准确性,遵循与指令生成相似的半自动化程序。首先为1000条人工标注的指令生成评价函数,并进行手动标注以进行修正。这产生了包含1000对经过人工验证的指令和评价函数的数据集。接下来,为扩展的100000条指令集生成评价。请注意,扩展指令是通过向LLM提供标注集中的示例指令来生成的。我们检索相应的标注评价函数,并将其提供给LLM。这与检索增强生成等方法类似,并通过人工检查发现,将评价函数生成的准确率从50%提高到92%。最后一步是,要求人类用户使用我们基于人类反馈的评价工具解决所有PARTNR任务。所有在人类用户6次尝试(3次单人尝试,3次多人尝试)后仍未解决的任务都被视为不可行,并从数据集中删除。我们发现,自动化生成的指令中约有90%准确,评价函数中约有92%准确,综合生成准确率为90% × 92% = 83%。
3 PARTNR Dataset
PARTNR数据集由来自HSSD数据集的37个训练场景中的100,000个片段、13个验证场景中的1,000个片段和10个测试场景中的1,000个片段组成。在扩展生成后,所有验证集和测试集的片段都经过了人工标注以确保正确性,同时训练集的一个包含2,000个片段的子集也进行了人工标注。关于扩展生成片段的正确性分析。下面分析下该数据集的特点和多样性。
特点:如前所述,PARTNR数据集侧重于四种任务类型:无约束、空间、时间和异构。在图4中展示了这些任务类型在测试集中的分布情况;验证集的分布情况与之相似。PARTNR数据集在这些维度上独立且联合地评估协作。其他值得关注的特性包括依赖重排(例如,“把它们放在同一张桌子上”)和同一对象的多步重排(例如,“把杯子拿到水槽边,洗干净,然后放进橱柜里”)。7%的任务包含依赖重排,6%的任务包含多步重排。任务平均需要满足4.7个命题(表明完成任务所需的步骤数量)。
多样性:PARTNR数据集中任务的多样性在很大程度上得益于循环模拟生成,该生成方法利用了丰富的HSSD场景和OVMM对象集。因此,PARTNR数据集中的任务涉及并需要对155种独特对象类型、20类家具和13种房型进行推理。请注意,每条指令在每个房屋中的实例化都带来了其自身的多样性。例如,“把笔记本电脑搬到办公桌上”,这条指令在每个房屋中都独特地指定了办公室和桌子的位置,以及不同指令中不同的笔记本电脑实例。
实验和分析
我们利用PARTNR探究了最先进的规划和感知方法如何在新环境中处理自然语言任务,以及如何与未见过的伙伴进行协调。由于PARTNR包含由语言指定的各种时空任务,这里主要在基线中使用大型语言模型(LLMs)进行规划,并研究了以下变体:(1)零样本提示、检索增强生成或微调,(2)集中式规划与分散式规划,(3)部分可观察环境与完全可观察环境,(4)学习得到的低级机器人技能与理想的低级机器人技能,以及(5)特权感知与非特权感知。
实验是在Habitat 3.0模拟器中进行的,使用了模拟的Spot机器人。我们为机器人和模拟人类采用了一种两层分级控制架构,如图5所示。在高层级上,规划器从预定义的技能库(例如,导航、拾取、放置、打开、关闭)中选择技能。我们还使用了一个具有三层层次结构的文本世界图,分别表示房间、家具和可移动物体。图中的每个节点都存储了一个语义类别(例如,厨房、桌子或杯子)、三维信息(例如,位置或边界框)和状态(例如,干净、已通电)。
1 Baselines
我们按照以下维度对基线进行评估:
1.高级规划器的变体:
- 启发式专家:这种方法利用专家设计的启发式方法和关于任务、环境和评估函数的特权信息,基于人类和机器人的能力预先规划所有步骤。例如,两个agent都可能重新排列物体,但只有人类执行清洁、填充和开关任务。
- 零样本ReAct(ReAct):使用ReAct及其API函数库或工具库,使大语言模型(LLM)能够执行动作。作为观察,向LLM提供简洁、当前的世界图描述以及动作历史。LLM利用这些信息从[探索房间、导航、打开家具、关闭家具、拾取物体、放置物体、等待、完成]中为机器人选择一个动作。
- 带有检索增强生成(RAG)的ReAct(ReAct-RAG):还评估了带有RAG的ReAct,以研究在类似任务上的规划示例是否能提高ReAct的性能。通过从ReAct在2000个任务训练子集中的成功轨迹中收集数据,构建了一个规划示例数据库。在测试时,基于句子相似性从训练数据集中选择最相关的规划轨迹,并将其添加到LLM的提示中。
- 微调后的LLM(Finetuned):本文还研究了使用ReAct基线中成功的轨迹来微调一个较小的LLM(Llama3.1-8B)作为高级规划器,这些基线使用Llama3.1-70B。这里使用React-RAG数据集,将每个片段拆分为一系列高级规划动作,仅筛选成功执行的动作。对于每个动作,构建一个包含世界图和动作历史的输入,类似于ReAct。然后使用低秩适配器微调一个LLM,以在给定此输入的情况下从ReAct片段中预测动作。该模型降低了延迟和计算需求,适合现实世界中的部署。
所有模型生成都受到约束生成的限制,仅输出对观察到的对象有效的动作。约束生成极大地减少了LLM典型的幻觉和“语法”错误。当两个agent都调用Done或达到最大模拟步骤或LLM调用时,一个片段即结束。
- 集中式与分散式规划:
为了研究多agent PARTNR任务中协调的开销,这里比较了集中式规划器和分散式规划器。在集中式规划中,单个大型语言模型(LLM)根据两个agent的完整状态信息为它们决定动作,从而有效地消除了agent之间的任何协调需求。在分散式规划中,每个agent由不同的LLM控制,每个LLM都需要推断另一个agent的动作。
- 部分可观察与完全可观察:
为了评估当前最先进(SoTA)的语言模型是否能够探索新环境并识别与任务相关的对象,考虑了一个部分可观察的设置,其中规划器知道房屋的布局但不知道目标的位置,因此需要探索。这与完全可观察的设置形成对比,在完全可观察的设置中,所有目标的位置都是事先已知的。
- 学习到的与先知低级别机器人技能:
本文研究了学习到的神经网络技能与先知技能(具有特权模拟信息)对PARTNR任务整体性能的影响。这里为拾取、放置、导航、打开和关闭动作创建了一个学习到的技能库,并与先知技能进行了性能比较。
- 特权与非特权感知:
为了研究诸如检测不准确和定位近似等感知挑战,使用了带有修改后的ConceptGraphs的非特权世界图,该图仅根据agent的RGBD观测结果构建。随着agent的探索和动作,这个世界图将使用机载传感器进行更新。相比之下,在特权感知下,这些信息可以直接从模拟中获取。
2 Results and Analysis
指标。使用四个关键指标来评估不同设置下的性能。首先,模拟步数指标衡量了agent在模拟环境中完成任务所需的步数,作为效率的一个指标。其次,成功率反映了任务的完成情况,即是否满足“所有”任务约束。鉴于PARTNR任务的复杂性和长期性,agent通常只能部分完成任务。为了考虑这一点,还报告了完成百分比,它量化了已完成任务“命题”的比例(对于成功的任务,完成百分比为1)。最后,我们通过规划周期指标来评估规划器的推理效率,该指标计算每个规划器在一个情节过程中进行的高级大型语言模型(LLM)调用的次数。在所有实验中,将规划器的最大调用次数限制在50次以内。
任务性能分析
表2展示了使用Llama3.1-70B-Instruct模型作为ReAct基线,以及使用微调后的Llama3.1-8B基础模型作为微调基线。由于PARTNR任务是多agent任务,还需要一个模拟的人类伙伴,使用Llama3.1-70B-Instruct模型并通过ReAct方法对其进行控制。主要发现如下所述。
基于LLM的规划器在处理PARTNR任务时面临挑战。在所有可观察性和可控性条件下,基于LLM的基线性能均不如具有特权的启发式专家,原因是任务跟踪中出现错误(未完成所有步骤、步骤顺序错误或撤销已完成的步骤),以及语义错误(将对象放置在错误的家具上或移动错误的对象),这表明LLM在任务规划方面存在差距。
LLM在分散式设置中的协调方面表现不佳。没有特权访问伙伴意图的分散式ReAct基线在任务完成速度上显著慢于集中式ReAct。这表明,对伙伴进行推理(例如,了解或推断伙伴的意图)可以提高PARTNR任务的效率,而当前最先进的LLM在这方面表现不佳。此外,有两个agent的分散式ReAct甚至慢于单个agent的ReAct(行(e)中的多agent需要3295步,而行(a)中的单agent需要2519步),这表明LLM在协调方面承受着巨大的“负担”。在4.2.2节关于额外努力的分析中,我们进一步强调了这种协调负担,我们发现,在分散式设置中,agent最终会更高频率地重复任务的部分内容或执行不相关的动作。
LLM(大型语言模型)无法从已学习技能的失败中恢复。当用已学习技能替换Oracle技能时,成功率从0.73下降到0.57(行(e)对比行(h))。这种下降可以归因于,与具有特权的Oracle技能相比,已学习技能的失败率更高,且所需的模拟步骤更多。LLM在应对技能错误(如未能拾取物体或执行不完整的探索)时难以恢复,从而导致成功率降低。未来的研究可以探索训练包含低级技能循环的大型模型,使它们能够在面对此类失败时学习恢复和重新规划策略。
LLM对感知错误表现出高度敏感性。当用现成的感知模块替换具有特权的感知时,成功率显著下降(从行(h)中具有特权、部分世界图的0.57下降到行(i)中使用Concept-Graphs的0.30)。LLM严重依赖世界图提供的准确世界描述,并且难以纠正诸如误分类(例如,将架子误认为是桌子)或房间分配错误(例如,将客厅的桌子错误地标记为在卧室)等错误。像VLM(视觉语言模型)这样的多模态模型可能在从这类失败中恢复方面更强大,这留待未来的工作来研究。
微调后的8B模型在性能上与使用70B模型的ReAct相当,但推理速度却快了8.6倍。我们发现,使用较小8B模型的微调规划器与使用更大70B模型的ReAct性能相当(在行(e)中,70B模型的成功率为0.73,而在行(g)中,微调后的8B模型的成功率为0.70)。同时发现微调模型在推理速度上快了8.6倍。这表明微调有效地从训练集中提取了与任务相关的信息,并将其泛化到新的测试任务中。当与人类共同部署时,微调模型所需的步骤更少,并且能够分担比70B模型更多的子任务(见表3)。
协作行为与效率分析
表2中的分析揭示了大型语言模型(LLM)在协作中面临的挑战,这促使我们更深入地研究具体的协作行为。
机器人承担了高达60%的任务。我们评估了机器人在从人类那里分担任务方面的能力,具体方法是测量在成功的PARTNR任务中,机器人执行的子任务占总子任务的比例。尽管单智能体和多智能体的成功率相似(0.73对比0.74),但在去中心化的多智能体环境中,机器人承担了约60%的子任务,从而减轻了人类的负担。
去中心化的智能体容易执行多余的任务。智能体有时会执行对任务无用的子任务,如重新排列任务中不需要的物体或重复另一个智能体已经完成的子任务。为了衡量这种多余的努力,我们计算了在一次任务中,智能体的无效动作(即未增加任务完成百分比、未对任务进展做出贡献的动作)占总成功动作的比例。我们发现,与单智能体相比,在去中心化的多智能体环境中,无效努力增加了300%(见表12),这表明协调负担显著增加。
时间和异构任务对LLM来说具有挑战性。LLM在时间和异构任务上表现困难。与ReAct的无约束任务相比,时间任务的成功率下降了27%,异构任务的成功率下降了20%(见表13)。这凸显了LLM在推理智能体能力和遵循严格顺序约束方面的局限性。
人机交互评估
我们基于Habitat 3.0中的Human-in-the-loop基础设施进行了构建,并将其调整为服务器-客户端架构,其中服务器托管在AWS上,能够支持多个客户端。这使我们能够使用129名非专业人类参与者对任务进行大规模评估。使用该工具从验证集和测试集中收集了1000个任务的单用户和多用户数据。在单用户设置中,一名参与者通过键盘/鼠标控制在模拟器中的人类角色来完成整个任务(附录中的图14展示了我们的HITL界面)。在多用户设置中,两名参与者分别控制一个人类角色和一个机器人角色来共同完成任务。这些实验的目的是研究PARTNR任务中的多用户动态,并观察多名人类协作是否比单个人类更高效。最后,我们进行了一项人机实验,其中一名人类参与者与由大型语言模型(LLM)控制的机器人协作。该实验旨在评估LLM控制的智能体在与未见过的真实人类协作时的表现。表3显示了验证集中任务在单用户、多用户、人类-ReAct和人类-微调设置下的成功率(SR)和完成百分比(PC)。此外,我们还测量了每种方法完成任务所需的步数,以及机器人完成的工作量比例(即任务分担)。我们还通过测量选择第一个对象所需的步数和无用努力(指对任务完成没有帮助的动作)来衡量人在回路中的探索效率。这些结果总结在表3中。
人类在PARTNR任务上的表现明显优于LLM。在单人和多人环境中,人类在PARTNR基准上的成功率均为0.93。相比之下,没有任何特权信息的ReAct模型的成功率显著降低至0.30(表2的第(i)行)。这凸显了LLM在规划任务性能上的巨大差距。值得注意的是,当与真实人类一起评估时,像ReAct和微调这样的LLM基线模型的成功率分别为0.92和0.91(表3),因为人类能够适应LLM的错误。另一方面,表2中的模拟人类是一个LLM,它无法从合作伙伴的错误中恢复。
在与真实人类协作时,微调后的LLM表现优于ReAct。当与真实人类在回路中一起部署时,微调模型在任务完成上比ReAct更快(微调模型3443步,ReAct 4267步)。它还能从人类那里分担更多任务(微调模型26%,ReAct 16%)。这表明具有更快推理速度的小型模型可以改善真实世界部署中的人类体验。
LLM在协调方面存在困难,阻碍了人类的表现。尽管在与人类协作时微调模型比ReAct更快,但两种方法都比人类单独完成任务要慢。相比之下,两名人类一起工作比单个人类完成任务更快(多人2369步,单人3046步)。这一结果与我们在表1中观察到的自动化评估结果一致,其中多智能体LLM也比单智能体LLM更慢。这一结果进一步证实,LLM在协调方面存在问题;而人类能够相互协调并分配任务,但去中心化的LLM却无法做到这一点。
LLM能够从人类那里分担任务。尽管上述任务完成步数有所增加,但由微调模型指导的机器人成功地从人类那里分担了26%的任务。这表明,在与真实人类合作伙伴协作时,LLM仍然能够提供帮助。尽管如此,仍有很大的改进空间。
一些结论
PARTNR是一个针对多智能体实体任务中的推理与规划基准,其特点是在60个模拟的多房间房屋中实例化了100,000项自然语言任务,这些房屋中包含5,819个独特物体。我们采用半自动化的基于大型语言模型(LLM)的pipeline,用于大规模指令和评估功能的生成,该过程使用了基于模拟的循环接地技术。PARTNR展现了日常任务的特点,如时间和空间的限制,并允许对规划方法进行系统评估。我们发现,在PARTNR任务上,当前最先进的LLM与人类水平的性能之间存在显著差距。尽管我们最佳的LLM基线在没有特权信息的情况下仅成功完成了30%的任务,但人类却能解决93%的任务。此外,LLM在与基于LLM的智能体以及真实人类伙伴的协调中都面临着挑战。人类参与的评估(即真实人类与LLM指导的机器人合作)表明,与单独工作相比,LLM指导的伙伴会降低人类的工作效率。这表明,基于LLM的智能体需要显著改进,才能在实体任务中成为有效的合作伙伴。PARTNR作为一个具有挑战性的基准,凸显了当前模型的重大局限性。