董嘉铖的博客
MANUS方法的流程图

MANUS: Markerless Grasp Capture using Articulated 3D Gaussians

1. 核心 在不戴手套/不贴标记(markerless)的条件下,从多视角 RGB 视频中高保真地捕捉手—物体抓握,核心在于精确估计接触(contact)区域与时序。 痛点:以往用骨架、网格或参数模型(如 MANO)表示手,形状表达维度低、与像素对齐不足,导致接触估计不准;隐式场(SDF/NeRF 类)虽拟合好但采样代价高、接触推断昂贵。 核心洞见:用3D Gaussia...

HOLD 手部和物体重建

HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video

核心 核心目标:仅用单目交互视频,不依赖物体模板与类别先验,同时重建“可动的手 + 被握持的未知物体”的高质量3D表面与姿态。 关键思想:把“手与物体”作为互补线索来联合建模与渲染:手的几何与接触约束能反推被握物体形状,反之亦然。并通过“分解式隐式模型 + 体渲染 + 交互约束下的姿态优化”完成可分离(disentangled)的重建。 问题/背景: 现有...

BIGS 双手和物体重建

BIGS: Bimanual Category-agnostic Interaction Reconstruction from Monocular Videos via 3D Gaussian Splatting

核心 仅给一段单目视频,在双手与未知物体复杂交互、严重遮挡的情况下,同时重建两只手与物体的3D形状/姿态与交互关系,并能进行新视角/新姿态渲染。这是比“一只手 + 物体”更困难的设定。 其实就是相比于HOLD把SDF换成了Gaussian并做了双手的联合优化,本身创新点不多 问题/背景: 目前已有的方法过于依赖一些先验,一些方法被限制在10-20种特定的的物品,难以...

GaussTR 自监督3D空间理解

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

问题/背景 3D 语义占据预测 (Semantic Occupancy Prediction) 需要对场景体素进行几何与语义标注,但传统方法依赖密集体素和大量人工标注,既算力高又难以泛化。 现有自监督方法常采用体素渲染或 NeRF,仍然计算量大且依赖 2D 伪标签,遇到真实分布变化时表现不稳。 方法 与基础模型对齐,实现自监督学习:这是该方法最关键的创新。GaussT...