以人为中心的具身智能要求人类能够引导具身智能体,使其行为与人类偏好保持一致。当前主流的人类偏好监督与评估范式主要包括:从大规模群体二元偏好数据集中训练的奖励模型;训练过程中简单的二元正确性指示;以及基于二元判断的人类评估。然而,自然表达的人类偏好(例如语言表达的偏好)远比这些形式复杂且信息丰富——整个任务往往可以由一句或几句话完全定义。真正具备自适应性和通用性的具身智能,必须能够与此类偏好进行交互并满足其要求。本文旨在同时解决具身智能体在复杂、定性任务上的评估问题,以及其对自然语言人类偏好的自适应问题。

评估方面,我提出了 BEHAVIORBEHAVIOR-1K,这是首批完全由普通人定义任务而构建的具身智能基准。这些基准分别包含 100 个与 1,000 个由普通人定义的高层次家庭任务,这些任务虽来源于日常经验,却可直接用于子目标生成、结构化评估以及符号密集型奖励设计。该基准是非运动学(non-kinematic)的,并且与具体仿真器无关。此外,这些任务通过大规模问卷调查筛选,确保其根植于人类真实需求。我进一步探讨了一种更严格的问卷设计方法,将“自动化意愿/市场影响”量化为“群体中位数愿意支付价格”,以衡量人们对将某项活动自动化(由智能体完成)的价值判断,并展示了初步设计与实验结果。 在个体层面的自适应方面,我提出了 ROSETTA 方法,用于从非约束的自然语言偏好中生成密集奖励函数。ROSETTA 利用基础模型(foundation models)将未见过的语言偏好翻译为密集的、基于代码的奖励表示,并能随偏好的积累与变化进行动态适配。该方法同时支持连续控制(continuous-control)和动作原语(action-primitive)两种设置,并进行了大规模的人类评估实验。

总体而言,这些工作为具身智能体对齐人类自然表达意图的全过程提供了系统化的框架——从复杂任务的定义与评估,到自然语言偏好的解析与自适应。

成为VIP会员查看完整内容
0

相关内容

具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
【CMU博士论文】面向目标的自主智能体推理
专知会员服务
24+阅读 · 9月11日
【剑桥博士论文】多智能体学习中的神经多样性
专知会员服务
20+阅读 · 8月22日
【伯克利博士论文】超越人类监督的视觉智能
专知会员服务
27+阅读 · 8月12日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
【苏黎世联邦理工博士论文】因果推断的混杂调整
专知会员服务
43+阅读 · 2022年11月7日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
【学界】融合对抗学习的因果关系抽取
GAN生成式对抗网络
15+阅读 · 2018年7月14日
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 10月30日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 10月30日
Arxiv
172+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
487+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
微信扫码咨询专知VIP会员