年终盘点 | 2023 年 NVIDIA Research 十大研究亮点

2023 年，NVIDIA 发布了众多创新的研究成果，从 Neuralangelo 的高保真神经表面重建到 Magic3D 的文本到 3D 内容创建，这些项目推动了 AI 创新的边界。从研究主题分布来看，关于 AI 智能体的研究有 3 个（机器人和虚拟角色），3D 生成模型研究有 2 个，图形处理研究 2 个，图像生成研究 2 个，视频生成研究 1 个。让我们一起回顾 2023 年 NVIDIA 引领 AI 创新发展的 10 大研究亮点。

Neuralangelo ：高保真神经表面重建

Neuralangelo 是一个全新 AI 模型，它利用神经网络进行 3D 重建，可将 2D 视频片段转换为详细的 3D 结构，为建筑物、雕塑以及其他真实物体生成逼真的虚拟复本。就像米开朗基罗用大理石雕刻出令人惊叹、栩栩如生的雕塑一样，Neuralangelo 能生成具有复杂细节和纹理的 3D 结构。随后，创意人士可以将这些 3D 物体导入设计软件中，对其进行进一步编辑，用于艺术、视频游戏开发、机器人和工业数字孪生。Neuralangelo 这项研究入选 TIME 杂志「2023 年最佳发明」榜单。

了解详细研究成果，请访问如下论文： https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

点击博客，了解更多：《数字文艺复兴：NVIDIA Neuralangelo 研究重构 3D 场景》

Eureka：AI 智能体利用 LLM训练机器人完成复杂任务

Eureka 是一种新型 AI 智能体，它可以教机器人复杂的技能。它教会了机器人手如何快速转笔，而且第一次转笔就能像人类做得一样好。Eureka 还教会了机器人完成打开抽屉和柜子、抛接球、操作剪刀等任务。下面视频中所展示的令人惊叹的 “魔术” 是机器人通过 Eureka 学会熟练完成的近 30 项任务之一。Eureka 可以自动编写奖励算法来训练机器人。

了解详细研究成果，请访问如下论文： https://arxiv.org/abs/2310.12931

点击博客，了解更多：《Eureka！NVIDIA 研究突破为机器人学习注入新动力》

Magic3D：高分辨率文本转 3D 内容创建

Magic3D 是一个可以从文字描述中生成3D模型的AI模型。其可在 40 分钟内创建高质量的三维网格模型，比谷歌 DreamFusion（据称平均耗时 1.5 小时）快 2 倍，同时还能获得更高的分辨率。在输入诸如「一只坐在睡莲上的蓝色毒镖蛙」这样的提示后，Magic3D 在大约 40 分钟内生成了一个 3D 网格模型，并配有彩色纹理。

一只坐在睡莲上的蓝色毒镖蛙

Magic3D 还可以对 3D 网格进行基于提示的实时编辑。想改变生成模型，只要改改文字提示，就能立即生成新的模型。

从一只坐在一堆西兰花上的金属兔子到一个坐在一堆巧克力饼干上的狮身人面像

了解详细研究成果，请访问如下论文： https://arxiv.org/abs/2211.10440

利用 ADMM 在 GPU 上实现交互式发丝模拟

研究人员实现了在 GPU 上计算头发模拟的新方法——ADMM。这是一种可以利用神经物理学来实现数万根头发实时且高清模拟的方式。该项 AI 技术可训练神经网络预测相应对象在现实世界中的运动轨迹。该团队的这种用于精确、全面地模拟头发的新颖方式还基于现阶段的 GPU 进行了针对性优化。其性能大幅优于目前最先进的基于 CPU 的求解器，可将模拟时间从数天缩短到数小时，同时还可提高实时头发模拟的质量。

了解详细研究成果，请访问如下论文：https://d1qx31qr3h6wln.cloudfront.net/publications/Interactive Hair Simulation on the GPU Using ADMM.pdf

点击博客，了解更多：《NVIDIA 最新图形学研究成果推动生成式 AI 前沿领域的进一步发展》

利用 LDM 实现高分辨率视频合成

Latent Diffusion Models（LDM）可用于高分辨率视频生成任务。通过在低维潜空间中训练扩散模型，LDM 实现了高质量图像合成，并避免了过多的计算需求。研究人员还将现有的文本到图像 LDM 模型转换为高效、精确的文本到视频模型，并展示了个性化文本到视频生成的结果。具体用例包括多模态驾驶情景预测等。

进行时态视频微调的示意

了解详细研究成果，请访问如下论文：https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

点击博客，了解更多：《NVIDIA 最新图形学研究成果推动生成式 AI 前沿领域的进一步发展》

Text2Materials：使用文本到图像提示来生成自定义纹理材质

Text2Materials 是一种可以帮助艺术家快速创建和迭代 3D 场景材质的生成式 AI 工作流。这项研究展示了艺术家如何利用文本或图像提示来更快地生成织物、木材和石材等自定义纹理材质，同时对创作进行更加精细的把控。这套 AI 模型将促进材质创建和编辑的迭代，使企业能够提供新工具来帮助艺术家快速完善 3D 对象的外观，直到达到想要的效果。在包括建筑、游戏开发和室内设计在内的创意产业中，这些功能可以帮助艺术家快速探索想法并尝试不同的美学风格，以创建场景的多个版本。

点击博客，了解更多：《NVIDIA Research 展示生成式 AI 如何帮助创建和编辑逼真的材质》

CALM：可操纵虚拟角色的条件对抗性潜在模型

CALM 是一种为用户控制的交互式虚拟角色生成多样化且可定向行为的方法。CALM 基于模仿学习，能捕捉并直接控制角色的动作。通过该方法，可以联合学习控制策略和运动编码器，从而重构给定运动的关键特征，而不仅仅是复制它。使用 CALM 训练完成后，可以在类似于视频游戏中的直观界面来控制角色。

CALM 由三个阶段组成学习有意义的运动语义表征

了解详细研究成果，请访问如下论文：https://arxiv.org/abs/2305.02195

Vid2Player3D：通过比赛视频学习物理模拟网球技术

研究人员创建了一个 AI 系统，可以从现实世界网球比赛的 2D 视频录像中学习各种网球技能，并将这些动作应用于 3D 角色。模拟网球运动员可以准确地将球打到虚拟球场的目标位置，甚至与其他角色进行长时间的对攻。除了网球的测试案例之外，还解决了一个难题：即在不使用昂贵的动作捕捉数据的前提下，生成能够逼真地完成各种技术动作的 3D 角色。

了解详细研究成果，请访问如下论文：https://research.nvidia.com/labs/toronto-ai/vid2player3d/

FlexiCubes：高效、高质量的网格优化方法

FlexiCubes 可以在 3D 工作流中生成高质量网格，从而提升各类应用的质量。全新 FlexiCubes 网格提取方法改进了许多最近的 3D 网格生成工作流，进而生成了能够更好表示复杂形状细节的更高质量的网格。这些生成的网格也非常适合用于物理模拟，因为要想高效产出稳定的模拟，网格的质量尤其重要。四面体网格可直接用于物理模拟。

了解详细研究成果，请访问如下论文：https://research.nvidia.com/labs/toronto-ai/flexicubes/

点击博客，了解更多：《生成高质量 3D 网格，从重建到生成式 AI》

eDiff-I：基于专家降噪器集合的文本到图像扩散模型

eDiff-I 是一种用于合成给定文本图像的扩散模型，可以生成与任何输入文本提示相对应的逼真图像。除了文本到图像的合成，它还提供了两个额外功能：样式传输（这使我们能够使用参考样式图像控制生成样本的样式）与用文字绘画（即用户可以通过在画布上绘制分割图来生成图像的应用程序，这对于制作所需的图像非常方便）。在这个框架中，研究人员训练了一组专家降噪器，专门用于在生成过程的不同间隔中进行降噪，从而提高合成能力。

了解详细研究成果，请访问如下论文：https://research.nvidia.com/labs/dir/eDiff-I/

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
MKL02Z32CAF4R	1	Freescale Semiconductor	Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20	ECAD模型下载ECAD模型	$2.7	查看
STM32F745IGT6	1	STMicroelectronics	High-performance and DSP with FPU, Arm Cortex-M7 MCU with 1 Mbyte of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM	ECAD模型下载ECAD模型	$16.29	查看
ATXMEGA128A1U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下载ECAD模型	$7	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

MKL02Z32CAF4R

Freescale Semiconductor

Kinetis L 32-bit MCU, ARM Cortex-M0+ core, 32KB Flash, 48MHz, WL-CSP 20