MANUS: Markerless Grasp Capture using Articulated 3D Gaussians

发表于 2025/09/07

MANUS方法的流程图

作者 Jiacheng Dong

8 分钟阅读

1. 核心

在不戴手套/不贴标记（markerless）的条件下，从多视角 RGB 视频中高保真地捕捉手—物体抓握，核心在于精确估计接触（contact）区域与时序。
痛点：以往用骨架、网格或参数模型（如 MANO）表示手，形状表达维度低、与像素对齐不足，导致接触估计不准；隐式场（SDF/NeRF 类）虽拟合好但采样代价高、接触推断昂贵。
核心洞见：用3D Gaussian Splatting（3DGS）构建可动手部模型与静态物体模型，都由显式高斯元（位置、取向、尺度、SH颜色）组成——显式几何便于快速、直接算手与物体的瞬时/累计接触；再配合超多视角可显著缓解遮挡，提升像素级对齐。

2. 问题/背景：

以往用骨架、网格或参数模型（如 MANO）表示手，形状表达维度低、与像素对齐不足，导致接触估计不准；隐式场（SDF/NeRF 类）虽拟合好但采样代价高、接触推断昂贵。

3. 方法

3.1 Pipeline

MANUS-Hand（手部）：基于 3DGS 的模板无关、可驱动手模型；
物体 3DGS 表示：静态高斯集合；
抓握与接触估计：将手与物体高斯在同一坐标系拼接渲染，并据3D 最近邻距离阈值得到瞬时/累计接触图。

3.2 MANUS-Hand：关节驱动的高斯手

21 bones、26 DOF 的骨架；在规范空间（canonical）学习一组手的 3D 高斯：均值 μ、协方差 Σ、透明度 α、SH 系数 φ；协方差参数化为 Σ = R S Sᵀ Rᵀ。
通过正向运动学（FK）+ 线性蒙皮（LBS）将规范空间的高斯映射到姿态空间：
- 位置：μ_p = T_g μ；
- 协方差：Σ_p = R_g Σ R_gᵀ；
- 颜色：将视线方向从姿态空间回到规范空间，用 φ 查询。
关键：蒙皮权重的稳健初始化。不是把 MANO 权重直接“近邻”分给高斯（会漂移错绑），而是在规范空间构建体素网格存放权重，再对任意高斯做三线性插值得到 W，避免训练中高斯漂移造成的错配。

输入与前置

多视角 RGB 视频 + 标定：50+ 台相机，120 FPS，1280×720，COLMAP 求内外参；需要几十个视角来缓解自遮挡、保证像素级对齐。
分割与关键点：SAM 分割出手/物体；Instant-NGP 做多视图一致性掩膜。AlphaPose → 多视角三角化 → 逆运动学（加关节限幅）→ 1C Filter 做时序平滑，得到骨架序列。

阶段A：学一个可动的 3DGS 手（MANUS-Hand）

表示：在规范空间学习手的 3D 高斯（位置、协方差、透明度、SH 颜色），这是一个可微光栅化的 3DGS 模型。核心选择 3DGS 是为了显式位置/朝向、优化与推理都更快。
从规范到姿态：利用骨架做 FK + LBS，把规范空间高斯变到当前姿态（位置与协方差随骨骼变换）；渲染得到对应视图。
训练目标：图像重建（L1、SSIM、LPIPS）+ 各向同性正则（抑制“针状高斯”，利于后续接触渲染稳定），最终损失 $L_h=\alpha L_1+\beta L_{SSIM}+\gamma L_{perc}+\delta L_{iso}$。

阶段B：学一个静态 3DGS 物体

和手类似，但不带骨架；训练时把投影到掩膜外的“漂浮高斯”剔除，保证几何一致与精度。

阶段C：抓握重建（合成“手+物体”场景）

姿态驱动手：用阶段A学到的 MANUS-Hand，喂入上一节得到的每帧骨架，得到该帧手部的“姿态高斯”。
拼接并渲染：把物体高斯集合 G_o 与 手高斯集合 G_h 直接级联成 $G_f={G_o,G_h}$，交给 3DGS 光栅器即可渲该帧抓握图像（显式高斯支持这种“拼即用”，隐式表示难以做到）。

阶段D：接触估计（瞬时 & 累计）

瞬时接触图：对手上每个高斯找物体上最近高斯，若中心距 d<τd<\taud<τ 记为接触（物体看手同理）；构成 3D 接触图 $C={d(G_h,G_o)\ \text{if }d<\tau;\ 0\ \text{else}}$。
累计接触图：沿时间把瞬时接触累加，得到抓握过程的“热区”；论文显式支持瞬时与累计两类接触输出。

数据集：MANUS-Grasps

动机：为支持神经场/3DGS 的高视角密度与强对齐，现有多视角抓握数据要么硬件特殊（热成像/标记/手套）、要么视角少、且接触多靠估计。
采集系统：53 台 RGB 相机均布立方体内壁，120 FPS, 1280×720，软同步误差 ≤3 ms；COLMAP 标定。
规模：50+ 相机、30+ 场景、3 名被试、总计约 700 万帧，覆盖 360° 抓握过程。
真值接触：15 组序列在物体表面涂亮绿色湿漆，抓握后漆转移到手上；通过多视图重建与分割得到物理真实的累计接触真值（优于热像法的扩散误差）。
标注：提供 2D/3D 关节、手/物体分割掩膜；分割用 SAM + Instant-NGP 保证多视图一致。

贡献/成果

MANUS-Hand：基于 3DGS 的可动手部表示，兼顾几何/外观与像素级对齐；
MANUS（抓握捕捉）：手与物体统一为高斯原语，高效计算瞬时/累计接触；
MANUS-Grasps：50+ 相机、~700 万帧的大规模多视角抓握数据，含湿漆真值接触评测；
接触度量与实验：在实物抓握上显著优于 MANO/HARP；并分析了视角数的重要性。

3D Vision, Research

3DGS HANDS Multi-View 手部重建数据集，手部模型

本文由作者按照 CC BY 4.0 进行授权