以人为中心的具身智能要求人类能够引导具身智能体,使其行为与人类偏好保持一致。当前主流的人类偏好监督与评估范式主要包括:从大规模群体二元偏好数据集中训练的奖励模型;训练过程中简单的二元正确性指示;以及基于二元判断的人类评估。然而,自然表达的人类偏好(例如语言表达的偏好)远比这些形式复杂且信息丰富——整个任务往往可以由一句或几句话完全定义。真正具备自适应性和通用性的具身智能,必须能够与此类偏好进行交互并满足其要求。本文旨在同时解决具身智能体在复杂、定性任务上的评估问题,以及其对自然语言人类偏好的自适应问题。
在评估方面,我提出了 BEHAVIOR 与 BEHAVIOR-1K,这是首批完全由普通人定义任务而构建的具身智能基准。这些基准分别包含 100 个与 1,000 个由普通人定义的高层次家庭任务,这些任务虽来源于日常经验,却可直接用于子目标生成、结构化评估以及符号密集型奖励设计。该基准是非运动学(non-kinematic)的,并且与具体仿真器无关。此外,这些任务通过大规模问卷调查筛选,确保其根植于人类真实需求。我进一步探讨了一种更严格的问卷设计方法,将“自动化意愿/市场影响”量化为“群体中位数愿意支付价格”,以衡量人们对将某项活动自动化(由智能体完成)的价值判断,并展示了初步设计与实验结果。 在个体层面的自适应方面,我提出了 ROSETTA 方法,用于从非约束的自然语言偏好中生成密集奖励函数。ROSETTA 利用基础模型(foundation models)将未见过的语言偏好翻译为密集的、基于代码的奖励表示,并能随偏好的积累与变化进行动态适配。该方法同时支持连续控制(continuous-control)和动作原语(action-primitive)两种设置,并进行了大规模的人类评估实验。
总体而言,这些工作为具身智能体对齐人类自然表达意图的全过程提供了系统化的框架——从复杂任务的定义与评估,到自然语言偏好的解析与自适应。