机器人操作需要精确的空间理解能力,以实现与真实场景中物体的交互。基于点云的方法受限于稀疏采样,易导致细粒度语义特征丢失;而基于图像的方法通常将RGB和深度信息输入至经3D辅助任务预训练的二维骨干网络,但其纠缠的语义与几何表征对现实场景中固有的深度噪声十分敏感,会严重干扰语义理解。更重要的是,这些方法往往关注高层几何特征,却忽视了实现精准交互所必需的低层空间线索。本文提出解耦式机器人操作框架SpatialActor,通过显式解耦语义与几何表征来解决上述问题。我们设计的语义引导几何模块能够自适应地融合来自噪声深度数据和语义引导专家先验的两种互补几何信息;同时,空间变换器模块充分利用低层空间线索实现精确的2D-3D映射,并促进空间特征间的交互。我们在超过50种模拟与真实场景任务中对SpatialActor进行了全面评估:该框架在RLBench基准测试中以87.4%的准确率刷新了性能记录,在不同噪声环境下仍保持13.9%至19.4%的性能提升,展现出卓越的鲁棒性。此外,该框架显著提升了新任务的少样本泛化能力,并在各类空间扰动下始终保持稳定的操作性能。