人类就绪水平(HRL)评估系统开发过程中以人为中心方面的成熟度与稳健性(ANSI/HFES,2021年)。作为技术就绪水平(TRL)的补充衡量标准,HRLs用于评估技术被人类操作者与维护者使用的就绪程度。美国国防部(DoD)目前正将ANSI/HFES-400采纳为一级非政府标准,因为人为因素对各类系统的安全性与有效性至关重要。这包括含人工智能(AI)组件的系统,其中算法偏见(如COMPAS再犯评估工具)或自动化过度依赖(如特斯拉自动驾驶系统)等故障凸显了人类集成不足的后果。然而开发者常优先考虑技术性能而牺牲社会技术对齐,从而危及安全性、公平性与用户信任。本文通过双出口标准模型将HRL框架适配于AI密集型系统,要求在所有九个HRL阶段同步完成技术验证(如模型准确性、可扩展性)与社会验证(如可解释性、偏见缓解、用户信任)。通过维护优先级排序案例研究展示其应用:某机器学习模型在保留人类监督的同时降低工作流程主观性。该框架提供从数据收集到实际部署的可操作检查点,使以人为中心理念嵌入全生命周期。HRLs有望成为AI广泛治理的组成部分,推动“以人为中心的人工智能”从愿景转化为可衡量的工程实践。本文探讨了动态AI环境(如持续学习)中的挑战与未来拓展方向。

HRL框架衡量人为因素在系统开发过程中的集成与成熟效能(ANSI/HFES,2021年)。随着AI系统日益深入关键活动,将HRLs扩展至AI特定场景势在必行。近期实践与政策动向均凸显将人类要素纳入AI系统开发与执行的紧迫性。高风险场景中的AI应用重大失误表明,人类就绪度关注不足可能损害公平与安全。例如COMPAS再犯算法因风险评估中存在种族偏见而声名狼藉,其对少数群体的过度影响引发对算法正义的普遍担忧(安格温等人,2022年)。同样,特斯拉自动驾驶系统因用户过度依赖自动化而缺乏适当人工监督与界面设计,被证实与多起事故相关(霍金斯,2024年)。这些并非孤立的技术故障,而是系统性缺陷的体现。AI系统常在未充分解决关键人为因素的情况下开发部署(雅利姆与汉德利,2023年)。此类失败本质属社会技术性而非纯技术问题——即源于人类角色与自动化能力缺乏整合。它们暴露了忽视AI工具与人类认知、行为及组织环境交互作用的后果。在医疗、国防运营、基础设施维护等决策准确性、责任与安全至关重要的领域(埃尔图伦等人,2024年),有效的社会技术整合要求确保AI技术不仅功能精确,更需对人类使用者具备可理解性、可控性与可信度(汉德利与雅利姆,2024年;雅利姆与汉德利,2025年)。

全球监管框架正正式反映这种日益增强的认知。演进中的立法环境持续呼应此趋势。欧盟《人工智能法案》对“高风险”AI系统实施严格限制(欧洲议会与理事会,2024年),要求在设计实施各阶段进行清晰的人类中心评估。同样,最小化无意偏见与保持人类控制及问责是美国国防部(2022年)的核心要素。在此背景下,HRLs提供了贯穿AI开发生命周期的人类系统整合框架。通过在数据准备、模型设计到实际部署各阶段设置技术与社会验证检查点,HRLs可作为治理与工程工具,确保人类中心考量不再是事后补充而是AI系统就绪度的基础组成部分。随着系统演进至包含虚拟团队成员、自主组件与自适应技术,HRLs必须能评估含AI组件的社会技术系统(雅利姆,2024年)。研究者强调算法与人类工作流整合仍是重大挑战,开发者或未充分考量AI对人类流程的影响(阿桑与乔杜里,2021年)。将机器学习(ML)模型集成入系统可提升数据分析、任务自动化与决策支持能力,这些模型能处理海量数据实现预测与解决方案生成。然而这些技术发展需辅以系统化的人类兼容性评估,HRLs在此具有独特优势。因此本文通过机器学习算法开发案例演示HRLs应用,该系统组件旨在加速维护优先级排序流程。将ML模型纳入该过程可减少因人类解读差异导致的主观性,同时降低人工工作量。将HRLs应用于该社会技术系统评估,既可衡量对人类操作者的考量程度,又能监控ML模型作为系统组件的持续适配性。

人类就绪水平示例:机器学习模型

本示例展示机器学习(Machine Learning,ML)模型作为系统组件在维护优先级排序工作流程开发过程中HRLs的应用。HRLs包含智能技术规范,其中人类组件是授权方而非用户(西等人,2018年);本示例通过人类与技术双重视角拓展该理念,审视ML模型。将ML模型嵌入系统是多步骤过程,包括评估系统兼容性、数据准备、模型训练、系统内部部署及持续性能监控优化。本例中社会技术系统评估不仅涉及系统与人类操作者的适配度评估,还包括确保ML模型作为系统组件持续适配的监控。此外,ML模型还需评估其数据使用的社会层面,如信任度、透明度与伦理合规性。HRLs可评估AI辅助系统全生命周期的人类使用效能。维护优先级排序案例(科瓦契奇,2024年)印证了HRLs对AI辅助系统的适用性。该案例中,工程师、技术人员与经理等各类维护人员可访问大量系统故障记录,导致维护工单优先级排序流程复杂耗时,因其依赖于受不同经验知识水平影响的人类对维护记录的解读。引入ML模型至维护优先级排序过程可减少人类解读差异所致的主观性。自动化目标在于降低主观性同时最小化人工负荷。维护优先级排序案例用于说明HRLs如何协助ML模型系统化集成与评估至传统系统。以下段落阐述HRLs各级别如何拓展至AI辅助系统,且每级出口标准分两部分描述:模型或数据要求(技术层面)与人类考量(社会层面)。

HRL 1确保人类特征、性能与行为基本原则被观察与记录。对AI辅助系统,HRL 1聚焦数据与初始人类中心需求定义。其出口标准包括:必须证明对ML模型数据需求及与开发概念或提议应用相关的基本人类行为、能力与限制的透彻理解与特征描述。维护优先级案例中,模型操作效能与其处理数据的定性与定量属性紧密相关;若数据信息不够稳健,模型可能无法产出理想结果。因此必须完成ML模型输入——维护记录类型与故障叙述的识别(技术层面)。此外需开展初始评估,聚焦将与系统交互的维护专业人员(如工程师与经理)的任务与角色,初步探索可能包括解读其维护记录相关解释局限性与操作AI支持工具的熟练度(社会层面)。

HRL 2确保以人类为中心的概念、应用与指南得到定义。对AI辅助系统,HRL 2聚焦数据处理与人类中心设计指南。其出口标准包括:第一,完成数据采集、标注、清洗、文本处理与特征提取;第二,建立人类与技术交互的关键人类中心设计原则、标准与指导。维护优先级案例中,执行维护日志获取与标注,继而进行文本处理与特征提取,为模型训练准备数据(技术层面)。确定代表ML模型与维护人员交互的合适设计指南,可能包括符合人体工学标准并能有效传递ML输出给用户的概念化用户界面(社会层面)。

HRL 3要求建立支持人类性能与人机交互的人类中心需求。对AI辅助系统,HRL 3聚焦模型选择、设计与人类中心需求。其出口标准包括:第一,确定合适的ML模型并创建配套实验设计;第二,进行必要的人类中心分析,识别集成入总体系统需求的人类中心需求与关键性能参数。维护优先级案例中,确定多个ML模型并为其构建实验以识别最优模型及其超参数(技术层面)。同时确定控制结果传达给维护人员的要求,可能包括定义用于通知员工各类维护任务紧急程度的通知或警报模式(社会层面)。

HRL 4要求完成人类系统设计概念与应用的建模、部分任务测试与权衡研究。对AI辅助系统,HRL 4聚焦模型训练、调参与部分任务人类测试。现有标准包括:第一,完成ML模型的充分训练与校准以满足预定性能指标;第二,利用分析工具、建模方法及快速原型的部分任务测试评估人类交互与性能特征。维护优先级案例中,应用于已处理维护记录的ML模型经历训练与微调以实现最优性能(技术层面)。随后利用模型初步原型与维护人员进行部分任务测试,可能包含员工基于模型评分对维护任务排序的模拟场景(社会层面)。

HRL 5评估任务相关部分任务模拟中原型的人类中心评价以指导设计。对AI辅助系统,HRL 5聚焦初步模型验证/测试与任务相关原型测试。其出口标准包括:第一,在模拟或受控环境中完成ML模型的初步验证与检验;第二,在与演进系统原型交互时完成人类交互与性能评估。维护优先级案例中,利用维护记录子集在模拟环境验证ML模型,确保输出与专家评估一致(技术层面)。此外执行涉及维护人员并使用高保真原型的任务相关部分任务模拟,可能包含员工基于已验证模型输出对维护任务排序的模拟场景(社会层面)。

HRL 6评估人类系统设计在相关高保真模拟或真实环境中完全成熟并展示。对AI辅助系统,HRL 6聚焦系统集成、验证与人类中心成熟度。其出口标准包括:第一,成功将ML模型作为组件集成至整体系统并确认其功能;第二,在高保真模拟或真实环境中使用功能化现实原型、典型用户及全面使用场景任务序列评估人类交互。维护优先级案例中,ML模型集成至现有维护工单系统后进行功能验证,确保ML模型输出准确影响系统优先级排序算法(技术层面)。随后使用集成系统与维护人员进行高保真模拟或真实测试,覆盖从标准维护任务到紧急情况的场景谱系,评估集成模型辅助工单排序的效能(社会层面)。

HRL 7评估人类系统设计在含系统硬件软件及典型用户的操作环境中经过全面测试与验证。对AI辅助系统,HRL 7聚焦操作测试与人类中心验证。其出口标准包括:第一,在实际操作环境中完成ML模型的广泛测试以确认符合所有性能与安全标准;第二,使用最终开发系统、典型用户及全面使用场景任务谱系在操作环境中评估人类交互与性能特征。维护优先级案例中,ML模型需在真实操作环境中使用实际维护记录与工单进行测试,评估准确率、精确度、召回率等性能指标及误报、漏报等安全指标(技术层面)。此外需在真实环境中使用最终集成系统与维护人员进行操作测试,覆盖从常规维护到紧急情况的多样场景,评估集成模型辅助工单排序的效能(社会层面)。

HRL 8评估人类系统设计在任务操作中使用完整系统硬件软件及典型用户经过全面测试、验证与批准。对AI辅助系统,HRL 8聚焦持续监控与改进。其出口标准包括:第一,完成ML模型的持续监控与定期更新以确保其持续满足性能安全标准;第二,在典型用户完成全范围使用场景任务的任务操作中评估人类与实际系统的交互与性能特征。维护优先级案例中,应建立监控协议定期评估ML模型性能,包括性能退化自动警报与模型再训练机制(技术层面)。此外需完成集成系统在任务操作中的广泛测试,涉及典型用户与全场景谱系,可能包含紧急情况以评估集成ML模型辅助工单排序的有效性(社会层面)。

HRL 9评估系统在操作全范围成功使用并系统监控人类系统性能。对AI辅助系统,该级别聚焦伦理、社会与操作监控评估。其出口标准双重性:第一关注系统本身,对已部署系统进行持续监控、测试与评估以确保其按设计支持任务;第二关注AI使用影响,通过评估与缓解伦理社会后果(包括数据隐私、公平性与透明度)实现。维护优先级案例中,ML模型需接受持续人类系统监控以确保达到预期操作性能水平,可能包含人类系统专家定期评估系统结果有效性(技术层面)。此外这些评估需确保ML模型未在维护工单排序过程引入偏见,可能涉及模型决策过程与结果的定期审计(技术层面)。伦理考量包括彻底审查数据使用,确保数据隐私维护且模型决策不偏袒任何群体,可能需详细分析模型预测与决策过程以保证所有操作的透明度与公平性(社会层面)。

成为VIP会员查看完整内容
2

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《人工智能在决策中角色的演变》最新278页
专知会员服务
56+阅读 · 4月25日
《提高人体性能的增强技术评估》最新128页报告
专知会员服务
35+阅读 · 2024年1月12日
《有机软件开发: 敏捷开发的案例研究》美海军65页论文
图神经网络(GNN)必读论文及最新进展跟踪
深度学习与NLP
28+阅读 · 2019年6月7日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
12+阅读 · 2019年3月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员