随着自主系统日益渗透到关键社会领域,确保人工智能(AI)的负责任使用已成为当务之急。然而,“可信AI”这一概念依然广泛且多维。本论文在AI系统的安全性、公平性、透明性与可问责性方面推进了相关研究。 在安全性方面,我们扩展了经典的确定性屏蔽技术,使其具备对延迟观测的鲁棒性,从而支持在现实世界条件下的实际部署。同时,我们将确定性与概率性安全屏蔽机制应用于仿真自动驾驶车辆,以防止与道路使用者发生碰撞,并在逼真的驾驶模拟环境中验证了这些技术的有效性。 在公平性方面,我们提出了“公平性屏蔽”(fairness shields)这一新颖的后处理方法,用于在有限或周期性时间范围内的序贯决策场景中强制实现群体公平。该方法在严格满足公平性约束的前提下,优化干预成本,实现在最小干预下的公平性保障。 针对透明性与可问责性,我们提出了一个评估概率性决策智能体意图行为的形式化框架,并引入了智能体性指标(agency)与意图商(intention quotient)等定量度量。我们利用这些指标设计了用于事后分析意图的方法,有助于在自主系统造成非预期伤害时厘清其责任归属。 最后,我们通过“反应式决策”(reactive decision-making)框架将上述贡献统一起来,提出了一种能够整合现有方法的通用形式化建模方式。总体而言,本论文所提出的多项进展在实现更安全、公平、可问责的AI系统方面具有现实意义,也为可信AI的后续研究奠定了基础。