Facebook的3D照片功能现在可以模拟任何图像的深度

2023-05-14 14:27:46

在2018年底，Facebook推出了3D Photos，这是一项利用深度数据创建图像的功能，图像看起来是平面的，但可以通过网络上的Facebook或Facebook的移动应用程序从不同角度使用虚拟现实(VR)耳机进行检查。它最初要求在桌面或双摄像头手机(如Galaxy Note10或iPhone 11)上安装深度地图文件，但从今天开始，3D照片可以与任何单摄像头的现代手机兼容——特别是iPhone 7或更高、中档或更好的安卓设备。

Facebook表示，“最先进的”机器学习技术使手机支持扩展成为可能。新部署的人工智能模型可以在没有深度数据的情况下推断出图像的三维结构，而不考虑图像的年龄和来源。它甚至适用于自拍照，绘画和复杂场景。它甚至可以在自拍、绘画和复杂场景中工作。Facebook在一篇博客文章中写道:“这项技术的进步让数百万使用单镜头照相手机或平板电脑的用户首次可以轻松使用3D照片技术。”“它还允许每个人以一种新的方式体验几十年前的家庭照片和其他珍贵的图像，将它们转换成3D。”

发布后，任何Facebook用户都可以查看3D照片，也可以通过Oculus Go上的Oculus浏览器或Oculus Rift上的Firefox在VR中查看。但是有限制。3D照片无法编辑，并且如果您想共享3D照片，则不能将多张照片添加到帖子中。无法将3D照片添加到相册中，并且如果要从Page中发布3D照片，则将无法对其进行放大或将其用于广告中。

3D照片背后的（数据）科学

Facebook表示，改善3D照片需要克服一系列技术挑战，包括（但不限于）训练一个模型，该模型可以正确地猜测物体从不同角度看起来的外观，并且可以在不到一秒钟的时间内在典型的移动处理器上运行。 ” 3D照片小组决定使用卷积神经网络，并在数百万对3D图像及其随附的深度图上对其进行了训练，之后，他们使用了受FBNet（资源受限环境的一系列模型）启发的构建块来优化模型用于移动设备。

Facebook的3D照片功能现在可以模拟任何图像的深度1

为了找到最佳的架构配置，3D Photos团队采用了一种自动流程，该流程使用了由Facebook AI Research开发的称为ChamNet的算法。ChamNet迭代地从搜索空间中采样点以训练精度预测器，从而加速了对模型的搜索，该模型在满足资源约束的同时最大化了准确性。据Facebook称，使用800张Nvidia Tesla V100显卡对新型3D照片的模型进行了大约三天的搜索。

Facebook的3D照片功能现在可以模拟任何图像的深度2

为了减少首次使用时必须传输到各种设备的字节数，3D照片小组将权重（连接分层AI模型中神经元的系数）和激活（决定模型输出、精度和效率的函数）量化（或将大值映射为小值）为8位。（这只需要原始重量和激活量占用的存储空间的四分之一。）量化意识的培训通过模拟培训过程中的量化，消除了培训和生产之间的差距，帮助防止质量下降，而8位运算符（行为类似于函数的结构）与原始的、更大的模型相比提供了更高的吞吐量。

Facebook说，将来，它打算将这些技术应用于移动设备拍摄的视频的深度估计。此外，它计划在增强现实等实时应用中探索利用深度估计，表面法线估计和空间推理的优势。“视频构成了一个值得注意的挑战，因为每个帧的深度必须与下一帧的深度一致。但这也是提高性能的机会，因为对同一物体的多次观察可以为高度准确的深度估计提供额外的信号。” “除了这些潜在的新体验，这项工作将有助于我们更全面地理解2D图像的内容。更好地理解3D场景还可以帮助机器人导航并与现实世界互动。”

Facebook的3D照片功能现在可以模拟任何图像的深度3

Facebook表示，在未来，它打算将这些技术应用于移动设备拍摄的视频的深度估计。此外，它还计划在增强现实等实时应用中探索利用深度估计、表面法线估计和空间推理。视频是一个值得注意的挑战，因为每一帧的深度必须与下一帧的深度一致。但这也是一个提高性能的机会，因为对同一物体的多次观测可以为高度精确的深度估计提供额外的信号，”Facebook写道。除了这些潜在的新体验，这项工作还将帮助我们更好地理解2D图像的内容。改善对3D场景的理解也可以帮助机器人导航，并与现实世界进行互动。”

声明：本文由易百纳技术社区编写，文章内容来自venturebeat，版权归原作者所有，转载请注明出处，如有侵权请联系删除。