欢迎访问:LangSplat:精准搜索3D世界中的对象 比LERF快199倍_精致生活网
  • 微信客服微信客服
  • 微信公众号微信公众号

LangSplat:精准搜索3D世界中的对象 比LERF快199倍

收藏  分享
站长之家网络整理3

LangSplat:精准搜索3D世界中的对象 比LERF快199倍

生活网1月2日 消息:LangSplat 是一种3D 语言高斯模型,允许您按语言搜索3D 世界 。

清华大学和哈佛大学的研究人员开发了LangSplat,这是一种新的人工智能系统,可以在3D空间中高效、准确地搜索开放词汇。据称,该系统在速度和准确性方面显着优于之前最先进的方法LERF 。

加州大学伯克利分校的研究人员于2023年3月提出了语言嵌入式辐射场 (LERF)。该系统将大型语言模型集成到NeRF中,无需特殊训练即可在3D 环境中实现准确的物体识别。例如,书店 NeRF 环境中的用户可以根据愿景以自然语言搜索特定书名。该技术还可用于机器人技术、模拟中机器人的视觉训练以及人类与3D 世界的交互。

LangSplat 速度快了近200倍,而且更准确

然而,LERF 不适合实时搜索并且相对不准确。LangSplat 使用3D 高斯构建3D 语言场。研究人员表示,这种方法避免了 NeRF 所需的复杂渲染过程。在1440x1080像素的分辨率下,LangSplat 比 LERF 快199倍。

为了形成3D 语言场,LangSplat 使用 meta 的Segment Anything Model从场景的多个图像中学习分层语义。具体来说,图像被分解为边界清晰的不同对象掩模,其中对象进一步分解为整体、部分和子部分。然后,学习到的掩模由 CLIP 进行处理,其嵌入训练一个自动编码器,然后用于训练 LangSplat 的3D 语言高斯函数。

LangSplat 可以区分汤的成分

LangSplat 更加准确:在一个示例中,团队要求标记“一杯茶”。LERF 标记两个杯子,而 LangSplat 标记玻璃杯中的液体。在另一个例子中,它可以标记一碗拉面汤中的各个成分。

研究人员在两个数据集(LERF 数据集和3D OVS 数据集)上测试了 LangSplat。在这两种情况下,LangSplat 在速度和准确性方面都明显优于 LERF。具体而言,LangSplat 在 LERF 数据集上的总体准确度为84.3%,在3D OVS 数据集上的总体准确度为93.4%,而 LERF 的总体准确度分别为73.6% 和86.8%。

该团队认为进一步提高速度是可能的,尤其是在更高分辨率的情况下。

项目体验网址:https://top.aibase.com/tool/langsplat

 
更多>最新的资讯
推荐图文
推荐资讯
点击排行