清华大学携手哈佛大学的研究团队最近推出了一种名为LangSplat的全新人工智能系统,该系统能够在三维空间内高效、准确地搜索开放式词汇。LangSplat是第一个基于三维语言高斯喷洒(3DGS)的三维语言场方法,通过引入SAM和CLIP技术,在开放词汇的三维对象定位和语义分割任务上表现优于最先进的方法,同时比LERF快199倍。
LERF是加州大学伯克利分校的研究人员于2023年3月展示的一种语言嵌入式辐射场(LERF)技术,它将语言嵌入从现有模型(如CLIP)嵌入到NeRF中,实现了在三维环境中准确识别物体的功能。例如,在一个NeRF模拟的书店环境中,用户可以用自然语言搜索特定的书名。这项技术还可以应用于机器人技术、模拟机器人的视觉训练以及人类与三维世界的互动。然而,LERF的局限在于不适合实时搜索,且搜索结果的准确率较低。
为了解决LERF的短板,LangSplat采用了3D高斯函数构建了三维语言场,避免了NeRF所需的复杂渲染过程,在1440 x 1080像素的分辨率下,LangSplat比LERF快199倍。团队展示了一个装有茶叶的茶杯,LERF标记了两个杯子,而LangSplat能够准确标记出茶杯中的液体。在另一个例子中,它能够标记出一碗拉面汤中的单个配料。
为了构建三维语言场,LangSplat利用了Meta的“分段任意模型”(Segment Anything Model)从场景的多幅图像中学习分层语义。具体来说,图像被分解成边界清晰的不同物体掩码,而物体又被进一步分解成整体、部分和子部分。然后,CLIP对学习到的掩码进行处理,其嵌入被用于训练一个场景特定的自动编码器,然后用于训练LangSplat的三维语言高斯喷洒。
研究人员对LangSplat进行了两个数据集的测试,分别是LERF和3D OVS。结果显示,LangSplat在总体准确率上分别达到了84.3%和93.4%,而LERF的准确率分别为73.6%和86.8%。
LangSplat的推出将为三维场景中的开放式语言查询提供更准确和高效的解决方案,为人机交互和理解领域带来了更广阔的应用前景。有关详细信息,请参阅论文:https://arxiv.org/pdf/2312.16084.pdf
本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/3323