文章

MANUS: Markerless Grasp Capture using Articulated 3D Gaussians

1. 核心


  • 在不戴手套/不贴标记(markerless)的条件下,从多视角 RGB 视频中高保真地捕捉手—物体抓握,核心在于精确估计接触(contact)区域与时序。
  • 痛点:以往用骨架、网格或参数模型(如 MANO)表示手,形状表达维度低、与像素对齐不足,导致接触估计不准;隐式场(SDF/NeRF 类)虽拟合好但采样代价高、接触推断昂贵
  • 核心洞见:用3D Gaussian Splatting(3DGS)构建可动手部模型静态物体模型,都由显式高斯元(位置、取向、尺度、SH颜色)组成——显式几何便于快速、直接算手与物体的瞬时/累计接触;再配合超多视角可显著缓解遮挡,提升像素级对齐。

2. 问题/背景:


以往用骨架、网格或参数模型(如 MANO)表示手,形状表达维度低、与像素对齐不足,导致接触估计不准;隐式场(SDF/NeRF 类)虽拟合好但采样代价高、接触推断昂贵


3. 方法


3.1 Pipeline

  • MANUS-Hand(手部):基于 3DGS 的模板无关可驱动手模型;
  • 物体 3DGS 表示:静态高斯集合;
  • 抓握与接触估计:将手与物体高斯在同一坐标系拼接渲染,并据3D 最近邻距离阈值得到瞬时/累计接触图

3.2 MANUS-Hand:关节驱动的高斯手

  • 21 bones、26 DOF 的骨架;在规范空间(canonical)学习一组手的 3D 高斯:均值 μ、协方差 Σ、透明度 α、SH 系数 φ;协方差参数化为 Σ = R S Sᵀ Rᵀ
  • 通过正向运动学(FK)+ 线性蒙皮(LBS)将规范空间的高斯映射到姿态空间
    • 位置:μ_p = T_g μ;
    • 协方差:Σ_p = R_g Σ R_gᵀ;
    • 颜色:将视线方向从姿态空间回到规范空间,用 φ 查询。
  • 关键:蒙皮权重的稳健初始化。不是把 MANO 权重直接“近邻”分给高斯(会漂移错绑),而是在规范空间构建体素网格存放权重,再对任意高斯做三线性插值得到 W,避免训练中高斯漂移造成的错配。

输入与前置

  • 多视角 RGB 视频 + 标定:50+ 台相机,120 FPS,1280×720,COLMAP 求内外参;需要几十个视角来缓解自遮挡、保证像素级对齐。
  • 分割与关键点:SAM 分割出手/物体;Instant-NGP 做多视图一致性掩膜。AlphaPose → 多视角三角化 → 逆运动学(加关节限幅)→ 1C Filter 做时序平滑,得到骨架序列

阶段A:学一个可动的 3DGS 手(MANUS-Hand)

  1. 表示:在规范空间学习手的 3D 高斯(位置、协方差、透明度、SH 颜色),这是一个可微光栅化的 3DGS 模型。核心选择 3DGS 是为了显式位置/朝向、优化与推理都更快。
  2. 从规范到姿态:利用骨架做 FK + LBS,把规范空间高斯变到当前姿态(位置与协方差随骨骼变换);渲染得到对应视图。
  3. 训练目标:图像重建(L1、SSIM、LPIPS)+ 各向同性正则(抑制“针状高斯”,利于后续接触渲染稳定),最终损失 $L_h=\alpha L_1+\beta L_{SSIM}+\gamma L_{perc}+\delta L_{iso}$。

阶段B:学一个静态 3DGS 物体

  • 和手类似,但不带骨架;训练时把投影到掩膜外的“漂浮高斯”剔除,保证几何一致与精度。

阶段C:抓握重建(合成“手+物体”场景)

  1. 姿态驱动手:用阶段A学到的 MANUS-Hand,喂入上一节得到的每帧骨架,得到该帧手部的“姿态高斯”。
  2. 拼接并渲染:把物体高斯集合 G_o手高斯集合 G_h 直接级联成 $G_f={G_o,G_h}$,交给 3DGS 光栅器即可渲该帧抓握图像(显式高斯支持这种“拼即用”,隐式表示难以做到)。

阶段D:接触估计(瞬时 & 累计)

  • 瞬时接触图:对手上每个高斯找物体上最近高斯,若中心距 d<τd<\taud<τ 记为接触(物体看手同理);构成 3D 接触图 $C={d(G_h,G_o)\ \text{if }d<\tau;\ 0\ \text{else}}$。
  • 累计接触图:沿时间把瞬时接触累加,得到抓握过程的“热区”;论文显式支持瞬时与累计两类接触输出。

数据集:MANUS-Grasps


  • 动机:为支持神经场/3DGS 的高视角密度与强对齐,现有多视角抓握数据要么硬件特殊(热成像/标记/手套)、要么视角少、且接触多靠估计。
  • 采集系统53 台 RGB 相机均布立方体内壁,120 FPS, 1280×720,软同步误差 ≤3 ms;COLMAP 标定。
  • 规模50+ 相机、30+ 场景、3 名被试、总计约 700 万帧,覆盖 360° 抓握过程。
  • 真值接触:15 组序列在物体表面涂亮绿色湿漆,抓握后漆转移到手上;通过多视图重建与分割得到物理真实的累计接触真值(优于热像法的扩散误差)。
  • 标注:提供 2D/3D 关节、手/物体分割掩膜;分割用 SAM + Instant-NGP 保证多视图一致。

贡献/成果


  • MANUS-Hand:基于 3DGS 的可动手部表示,兼顾几何/外观与像素级对齐;
  • MANUS(抓握捕捉):手与物体统一为高斯原语,高效计算瞬时/累计接触
  • MANUS-Grasps50+ 相机、~700 万帧的大规模多视角抓握数据,含湿漆真值接触评测;
  • 接触度量与实验:在实物抓握上显著优于 MANO/HARP;并分析了视角数的重要性。

本文由作者按照 CC BY 4.0 进行授权