斯坦福华人退学博士开发的Pika,让AI技术和艺术迸发出了绚丽的火花。
最近,又有斯坦福的华人研究人员提出的新的框架——WonderJourney,
可以用一句话或者一张图,自动生成一系列3D场景的连续画面,效果炫酷!
图片
用一张爱丽丝奇境漫游的图片,就能生成一段真的爱丽丝漫游的梦境经历。
或者,用一首陆游的《游山西村》,可以生成一段水墨风格的诗词梦境:
莫笑农家腊酒浑,丰年留客足鸡豚。 山重水复疑无路,柳暗花明又一村。 箫鼓追随春社近,衣冠简朴古风存。 从今若许闲乘月,拄仗无时夜扣门
图片
项目网址:https://kovenyu.com/WonderJourney/
图片
论文地址:https://arxiv.org/abs/2312.03884
WonderJourney是一个用于永久场景生成的模块化框架。
与之前专注于单一类型场景的视图生成框架不同,WonderJourney可以从用户提供的任何位置(通过文本描述或图像)开始,并通过一长串不同但连贯相连的3D场景生成旅程。
作者利用LLM来生成场景的文本描述,利用文本驱动的点云生成管道,来制作漂亮且连贯的3D场景序列,并利用大型VLM(视觉语言模型)来验证生成的场景。
No, no! The adventures first, explanations take such a dreadful time. --- Alice's Adventures in Wonderland
——作者表示,不解释了,赶紧先看效果!
首先展示从任意位置开始,沿着摄像机轨迹生成一系列不同但连贯的3D场景。
图片
以上图中的场景为起点,WonderJourney进行了延伸和想象:
图片
确实连贯且优美,从闹市到亭台山水,不得不说,AI的想象力真的有点东西。
然后展示WonderJourney合成长篇视频的能力:
图片
虽然有瑕疵,并且建筑风格不太统一,但小编觉得最后视角突然进入房间,算是很有意思的安排。
接下来,从同一地点开始,WonderJourney可以生成一组不同的「wonderjourneys」,——即不同的发展方向,在不同的目的地结束。这里使用相机姿势的轨迹来渲染视频。
图片
图片
——小编称之为”AI的平行世界“。
最后,WonderJourney还可以根据一系列文本描述(例如诗歌、俳句和故事摘要)生成受控的wonderjourneys,也就是文生视频的能力。
首先是一首古诗:
图片
双飞燕子几时回,夹岸桃花蘸水。开春雨断桥人不渡,小舟撑出柳阴来。
燕子、桃花、水流、小舟,也是该有的意象都有了。
然后是日文的俳句,小编实在不懂日文,就把原文放在下面了:
图片
图片
虽然不懂,但「远山」、「日」、「枯野」咱还是能看出来的。
最后是英文场景下的故事摘要,这里描绘的是诗歌Jabberwocky(龙)中的场景(Fighting...Hero returns...Storyteller...):
图片
战斗、英雄凯旋、最后是讲故事的人。
不知道大家有没有发现,三种语言画出来的风格完全不同。中文是水墨画,日文有点像浮世绘,英文有一点点油画的感觉。
论文细节
在《爱丽丝梦游仙境》中,故事开始于爱丽丝掉进兔子洞,进入一个陌生而迷人的仙境。
在穿越这个仙境的旅程中,爱丽丝遇到了许多神奇的角色,如柴郡猫和疯帽子,以及茶话会和玫瑰园等奇特的场景——最终在皇宫结束。
这些角色和场景结合在一起,形成了一个引人入胜的世界,多年来吸引了无数读者。
在本文中,作者遵循这一创意,探索现代计算机视觉和人工智能模型,如何同样生成如此有趣和多样化的视觉世界,用户可以穿越这些世界,就像爱丽丝在仙境中的冒险一样。
图片
为了实现这个目标,作者引入了永久3D场景生成。
这项工作的目标是,从单个图像或语言描述的任意位置开始,合成一系列不同的3D场景。
生成的3D场景沿着远程摄像机轨迹连贯连接,穿过各种合理的地方,使用一系列不同的场景渲染视频,以模拟在虚构的“仙境”中旅行的视觉体验。
永久3D场景生成的主要挑战集中在,生成多样化但合理的场景元素上。这些场景元素需要通过连贯连接的3D场景来支持路径的形成,
包括可以被观察到的场景中的各种对象、背景和布局,并自然地过渡到下一个但未观察到的场景。
图片
WonderJourney的生成过程可以分解为:确定要为给定场景生成哪些对象,在哪里生成这些对象,以及这些场景如何以几何方式相互连接。
确定要生成哪些元素需要对场景进行语义理解(比如,狮子可能不太适合厨房);确定在哪里生成需要关于视觉世界的常识(比如,狮子不应该漂浮在天空中);
此外,在新的连接场景中生成这些元素需要几何理解(比如,遮挡和无遮挡、视差和适当的空间布局)。
WonderJourney利用LLM生成一长串场景描述,然后使用文本驱动的视觉场景生成模块,生成一系列彩色点云来表示连续的3D场景。
在这里,LLM提供常识和语义推理;视觉模块提供视觉和几何理解以及适当的3D效果。
最后,利用VLM来验证生成,并在检测到不需要的视觉效果时,启动重新生成。
图片
上图展示了WonderJourney框架和跨模块的工作流程。
WonderJourney框架是完全模块化的,每个模块都可以由最好的预训练模型实现。
WonderJourney框架包含三个核心组件:一个用于生成场景描述的LLM,一个用于生成连贯3D场景的文本驱动的视觉模块,以及一个用于验证生成场景的VLM。
方法
WonderJourney的主要思想是生成下一个场景所包含的视觉元素的文字描述,然后使用一个文本引导的视觉生成模块来制作三维场景。
WonderJourney将整个生成任务分解为场景描述生成、视觉场景生成和视觉验证。
给定输入图像或文本,首先通过使用文本到图像模型生成图像,或使用VLM生成描述,将其与其他模态配对。
然后,通过LLM生成下一个场景描述。视觉场景生成模块接收下一个场景描述和当前场景图像,生成下一个由彩色点云表示的 3D 场景。
之后,VLM会检查此生成过程,以确保没有不良影响,否则会重新生成。
场景描述生成
这里定义场景描述,它由一个在场景中保持一致的样式S、场景中的对象O和一个描述场景背景的简洁标题B组成。
利用LLM输出自然语言描述,然后使用词汇类别过滤器来处理O和B的原始文本,只保留实体的名词和属性的形容词。
从经验上讲,与要求LLM直接输出这种结构化描述相比,本文的做法会产生更连贯的连接场景。
视觉场景生成
视觉场景生成器包括免学习操作,例如透视取消投影和渲染,以及使用参数化(预训练)视觉模型的组件,包括深度估计器、基于分割的深度精简器和文本条件图像Inpainter。
将图像提升到点云:给定由图像表示的当前场景,通过估计深度将其提升到3D,并使用针孔相机模型将其取消投影。
实验中使用了MIDAS v3.1,是目前最先进的深度估计器之一。
现有的单目深度估计器有两个共同的问题:
首先,深度不连续性没有得到很好的建模,导致物体边界的深度边缘过于平滑。
其次,天空的深度总是被低估。
为了解决这两个问题,这里引入了一种利用像素分组分割,和天空分割的深度细化过程。
为了增强跨对象边界的深度不连续性,当元素的视差范围有限时,使用正面平面对场景元素进行建模。
图片
上图展示了视觉场景生成模块。每个箭头代表一个参数化视觉模型(比如深度估计器)或一个操作(比如渲染)。
针对具有不同风格的一般场景,本文使用视差范围的标准来保持估计的深度,而不是选择语义类。
对于天空深度,这里使用 OneFormer来分割天空区域,并删除沿天空边界的点。
此外,作者发现远处像素的深度通常不可靠。因此,文中还设置了一个深度为F的远背景平面,该平面切断了超出该深度的所有像素的深度。
作者沿着连接新场景和当前场景的摄像机轨迹,放置一个额外的摄像机,在该摄像机上渲染部分图像,对图像进行涂色,并将附加点添加到点云中。
在实践中,保持较大的点云,会导致在生成高分辨率场景的长轨迹时,需要大量GPU内存的点太多。
视觉验证
根据经验,在生成的大部分照片和绘画中,会出现画框或照片边框,从而破坏了几何图形的一致性。
此外,在生成的图像边界附近经常存在不需要的模糊失焦对象。
因此,文中加入一个验证步骤,来识别和拒绝这些不需要的生成场景。
这里将其表述为基于文本的检测问题,目标是在生成的场景图像中检测一组预定义的不良效果。
如果检测到任何不良影响,框架会拒绝并重新生成场景图像。
图片
上图展示了从同一输入图像生成的不同旅程的定性结果,表明 WonderJourney 产生的结果表现良好。
实验
由于永久3D场景生成是一项没有现有数据集的新任务,因此这里混合使用人工拍摄的照片、来自网络的无版权照片和生成的示例,用于实验评估,并通过DALL·E 3执行文本到图像配对的过程。
论文使用两种最先进的永久视图生成方法作为基准:基于图像的InfiniteNature-Zero和基于文本的SceneScape。
图片
上图定性地展示了跨不同场景和不同风格生成旅程的示例。其中前两行输入是真实拍摄的照片。
这些结果表明,WonderJourney能够从各种类型的输入图像中生成多样化但连贯连接的场景。
图片
上图展示了WonderJourney与InfiniteNature-Zero和SceneScape的比较。
由于InfiniteNature-Zero是在自然照片上训练的,因此实验仅使用逼真的自然图像作为输入对其进行比较。
WonderJourney以创意和娱乐为目的,因此这里专注于人类偏好评估作为量化的指标,使用以下四个轴:单次旅程中生成场景的多样性、视觉质量、场景复杂性和整体趣味性。
实验招募了400名参与者,其中200名用于评价与InfiniteNatureZero相比的情况,另外200名用于比较SceneScape的情况。
每个参与者回答12个问题(例如“比较下面的两个视频。哪个视频具有更高的多样性?)。
图片
如上表所示,在所有四个轴上,WonderJourney都比两个基线都更受欢迎。
InfiniteNature-Zero仅合成自然场景,而WonderJourney则生成更多样化的场景和对象,例如登山者和房屋,这些场景和对象与初始自然场景自然相连。
由于使用了纹理网格,SceneScape倾向于生成类似洞穴的场景,因此所有示例都会收敛到洞穴中。此外,SceneScape往往不会生成新对象。所以用户对WonderJourney的偏好更高。
参考资料:
https://arxiv.org/pdf/2312.03884.pdf
https://kovenyu.com/wonderjourney/