跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

未来一年,无论背景如何,每个人都有可能涉足3D内容创作 | 聊聊与VAST宋亚宸的见解

编辑日期:2024年07月14日

在探索虚拟视觉的世界中,人们普遍认为技术演进的路径是从图像和视频生成到3D内容创作。DALL·E和Midjourney在图像生成、Sora与可灵在视频生成方面已展现出非凡实力。而3D生成领域同样进展神速,VAST早在去年底就推出了AI 3D模型Tripo,随后与Stability共同发布了可在半秒内转化图像为3D的开源工具TripoSR。

据宋亚宸所述,构建3D大模型就像是打造一款“3D版抖音”,首先建立“手机摄像头”功能,接着搭建内容平台。对于备受期待的VAST而言,他们已具备技术、产品和内容平台的全面潜力。他强调,创业公司的核心竞争力在于其初始愿景。我们是否会见证VAST在三个月后引领3D大模型用户体验的新变革?让我们一起期待。

不论背景如何,未来一年每个人都有可能涉足这一领域。以下是内容摘要,基于分享记录改编,保留原意但有所精简:

VAST专注于3D大模型的研发。这类模型允许用户通过文字或图片创造出带纹理材质的3D网格模型,广泛应用于动画、游戏、3D打印、工业设计等多个场景。VAST的Tripo产品已上线,支持在Discord和网页端使用,提供静态3D模型创建、自动骨骼绑定、动态生成、风格化处理以及多种格式的导出转换等功能。尽管ChatGPT和Midjourney等语言与图像生成模型广为人知,3D大模型与其有何异同,目前又处于怎样的发展阶段?答案有待进一步揭示。

三维大模型与图形学之间存在着深厚的联系,以往AI与图形学的融合并不普遍,但近年来新兴的3D表现方法使得3D模型能更有效地服务于AI大规模模型的训练。截至2024年6月,3D大模型的发展已超越GPT3或Midjourney V3的水平,预计到同年9月,其性能将达到GPT3.5或Midjourney V4的水准,成为用户体验的一个重要转折点。

因此,在探讨商业化和产品功能时,我们必须明白当前技术尚未臻于完善,许多商业应用场景尚无法直接应用现有的3D模型。随着3D生成大模型的迅速进步,其应用场景将日益丰富,商业价值也将进一步提升。

众多巨头如谷歌、英伟达、OpenAI、Meta和Adobe等也相继涉足3D生成领域。然而,3D生成在过去一直面临挑战。技术路径不明朗、训练数据集匮乏、公开数据集稀少且质量欠佳,无论是初创企业还是大公司、研究机构,都难以获取充足数据进行训练。此外,高昂的生成成本也是问题,需要大量GPU资源用于训练和推理。

针对这些问题,我们逐一找到了解决方案。首先,我们在学术层面上明确了技术路径;其次,我们积累了庞大的3D原始高质量数据集,规模超过2000万,堪称全球领先;最后,通过算法工程团队的精良优化,每个模型的生成成本几乎降到了零。

我们的技术成就和数据优势背后,离不开一支卓越的算法团队。去年,我们在CVPR会议上实现了六投六中的佳绩,同时,多篇论文被Siggraph、ICLR和ECCV等顶级学术会议接纳。我们还积极投身开源项目,例如三月份与Stability AI联合发布的TripoSR(GitHub 上获得4K星标),它是规模最大、性能最佳、速度最快的3D生成模型。此外,ThreeStudio(GitHub 上5.9K星标)、Wonder3D(GitHub 上4.5K星标)、TGS、CSD等高质量开源项目也备受行业关注。

技术优势主要体现在三个方面。首先,我们的生成结果具有高精度和出色的泛化能力。生成的3D模型无论在几何结构、拓扑、材质还是纹理上都表现出色,对复杂组合模型的适应性极佳,如能生成骑在乌龟上的绿色大象。

其次,我们对生成过程拥有强大的控制力,无论是文本引导的正负信息还是图像还原,都能保持一致的风格,这对商业应用至关重要。

再者,我们的技术不仅限于创造静态虚拟资产,还能生成物体的动态效果,如自动骨骼绑定和动作生成。我们的目标是创造更多元的3D内容形式,持续降低3D内容创作的难度。

我们通过两个方面不断巩固技术领先地位。我们深信3D表达方式的重要性,投入大量资源研究最适宜大模型训练的方法,力求tokenizer在压缩、保真和还原等方面达到最优。

另一方面,自从产品Tripo3d.ai上线以来,已吸引全球数十万开发者用于创作,并与数百家企业建立了紧密合作关系。至今,已生成超过400万个3D模型。用户的实际反馈为我们提供了大量改进技术的人工反馈,形成了数据驱动的优化循环。

VAST的愿景是让3D内容创作变得普及,目标是在来年使每个人都能轻松创建完整的3D作品,即便没有专业的3D建模技能。如今,从文字、图像、视频到音频,各类信息形式都有对应的大众化平台,如Twitter用于文字、Instagram处理图片、TikTok聚焦视频、Spotify承载音乐。然而,3D内容领域尚未出现类似规模的大众平台,尽管其商业潜力巨大。

我们认为,3D内容平台缺席的关键在于缺乏易用的大众级创作工具,就像3D领域的“手机摄像头”尚未出现。这导致3D创作的成本和难度过高,阻碍了大众平台的发展。因此,3D大模型可以被视为实现这一目标的“手机摄像头”。

想象一下,你从梦中醒来,希望能将梦境构建出来,邀请朋友体验。这看似遥不可及,但随着3D大模型技术的进化,比如达到V4或V5阶段,这种可能性将逐渐显现。

只有当这样的大众创作工具问世,3D内容平台才能崭露头角,进而催生虚拟内容的爆炸性增长。随着更多人使用像Tripo这样的工具和3D内容平台,将产生大量3D原始数据,驱动3D大模型的技术进步。反过来,技术的进步也将优化用户体验,形成一个良性的数据循环。

Tripo Web工具以其独特的魅力脱颖而出,它以会员订阅和API接口的形式为个人和企业用户提供服务。个人用户,如3D艺术家、游戏建模师和独立开发者,可通过订阅获取高效的建模解决方案。对于企业,我们不仅提供API接入,还提供量身定制的专业服务。海外市场对我们而言是关键的增长领域,目前已有数十万海外开发者选择我们。

在游戏行业,我们已与众多国内外知名游戏厂商、编辑器和引擎建立了官方合作关系。我们的技术专长在于游戏初期的概念设计阶段,助力团队迅速创建角色、环境、交通工具等3D元素,激发创新思维。在制作流程中,我们的技术也可用于生成中远场景美术资源,并协助主美与外包团队实现高效协作。

我们不断追求创新,正探索将3D生成技术无缝融入游戏玩法。TripoGo,由我们的开发者社区打造,玩家通过生成3D模型进行竞技,胜者能获取对手的创意进行进一步发展。这款游戏借鉴了童年时代的数码宠物机,但3D技术为其带来了全新的娱乐体验。TripoGo凭借社交媒体迅速走红,短短一周内吸引了逾十万海外用户。

我们还携手小型游戏开发团队和工作室,共同开发各种人工智能驱动的游戏。同时,我们发起了全球首场AI 3D渲染大赛——Behind the Scenes。即使我本人不具备建模和动画技能,利用Tripo的AI生成功能,仅花费半天时间便创作出获奖作品。

VASTAI

,点赞124

在这场竞赛中,收到了大约两三百件参赛作品,全部运用了Tripo AI来创作。这些出色的作品显现出,在设定好的摄像位置和情境下,利用Tripo的生成模型和动画功能,能够展现出人工智能如何赋能虚拟内容制作者,使初学者也能快捷地创造出令人赞叹的内容。同时,Tripo正被教育和小游戏开发者用来构建创新的自动生成决策系统。在扩展现实(XR)领域,Tripo已登陆Vision Pro应用商店。

3D生成技术对3D打印行业的影响不可忽视。由于具备建模技能的用户数量有限,3D打印,特别是家庭用3D打印,发展受到了制约。然而,随着3D生成技术的演进,不具备建模知识的用户也能通过描述或图片生成所需模型,进而实现打印。

我个人就曾体验过上传照片至Tripo,生成卡通形象,然后将其3D打印成个性化的玩具雕像。

从家具、服装、灯具到珠宝,多个行业都可以利用3D生成技术进行创新设计和仿真。我们为每个特定领域提供定制化的解决方案,比如在设计灯具模型时,会考虑到空心结构以容纳灯泡,并能模拟点亮效果。

VAST已在国际上建立了良好的口碑,并在SIGGRAPH、CVPR等顶级会议上发表多篇论文。Tripo也被纳入A16Z的AIGC产业图谱。我们的企业宗旨是——为世界增添文化,为人类创造福祉。

问:提及大模型产品时,ROI经常被讨论。VAST对此有何看法?

VAST的宋亚宸:3D生成的ROI可能超过人们的预想。相比视频、图像或文字生成所面临的高推理成本问题,3D生成的成本较低,因此我们的产品在市场销售时更容易实现高ROI。

例如,我们与Stability合作的开源3D大模型TripoSR,仅需在CPU上花费0.5秒就能生成一个3D模型,计算成本极低。对我们来说,数据而非计算能力是更大的挑战。

问:视觉生成模型通常按照技术复杂度分为图像、视频、3D三个阶段,您怎么看待这种分类?

宋亚宸指出,3D生成技术的成熟度可媲美视频生成,他鼓励人们尝试tripo3d.ai以亲身体验。尽管Luma曾专精于3D技术并与VAST竞争,但现在它在视频领域取得了显著进展。他强调,3D生成与文字、图像、音频和视频的创作截然不同,后者已有便捷的制作手段,而3D内容以前对普通人来说遥不可及。3D生成技术的出现填补了这一空白,开创了全新的可能性。

Sketchfab等平台上的3D模型平均售价约为40美元,高质量模型甚至能卖到数百美元,这揭示了3D生成的巨大商业价值。此外,3D内容的消费者市场已经相当成熟,许多最盈利的游戏如原神、王者荣耀和黑神话悟空都是3D的。早在2012年,3D和2.5D手游已占据市场的87%,如今3D游戏市场规模更为庞大。

随着3D大模型简化了内容创作流程,未来每个人都可能成为3D内容的创作者。目前,设备如Vision Pro和XR眼镜的利用率不高,问题不在于硬件,而是缺乏优质内容。正如当年用MP3阅读长篇小说,只要有吸引人的内容,即使设备简陋也会有人接纳。如果有一天,创建3D内容变得几乎零成本且无需专业技能,那么3D内容的创作和分享将普及到每个人的日常生活中。

当被问及何时会迎来这样一个时代,即每个人都能在3D世界中自由创作,答案指向了内容创作的易得性和低成本。一旦实现这一点,3D将成为人们交流、互动、表达和创新的主要工具。

我们坚信大众化的创作工具是创新的基石,就像手机摄像头对抖音的成功至关重要。目前,我们正致力于开发一款类似手机摄像头的3D大型模型,期望在今年年底能取得显著成果。初期模型迭代时,人们关注点在于布线和PBR等方面,但其实更重要的是普通用户能够首次涉足3D模型和内容创作,这是历史性的突破。

预计到今年底,我们的模型将达到初级3D建模者的水平,而到明年,它将超越具备三年经验的专业建模师,堪比Midjourney V5或V6的水准。

然而,我们必须认识到,手机摄像头的普及并不必然催生抖音,制造手机摄像头的公司也不一定能构建出类似抖音的内容平台。因此,拥有大众化的创作工具并不保证内容平台的自然形成。

在手机摄像头出现之前,众多企业已尝试创建内容平台,就连Facebook也更名为Meta,宣布进军元宇宙。但这不意味着他们都是骗子,只是受限于缺乏摄像头技术。

我们兼顾大众化创作工具的研发与3D大型模型的技术领先,这为我们提供了充足的时间窗口和技术优势来构建内容平台。我们积累的3D内容创作者社区、海外开发者生态系统,以及先进的3D模型技术,都在助力我们构建“3D版抖音”的过程中占据先机。

Q:您将3D内容平台比喻为3D抖音,十分新颖。您提到有充足的时间窗口,但一般认为初创公司在构建通用大模型上面临困难,3D生成领域是否也有类似挑战?当前市场和时间窗口状况如何?

3D生成领域具有其独特性。举例来说,语言、图像、音乐、声音、视频等多模态领域主要由海外公司主导,我们正在奋力追赶。但在3D生成领域,我们的技术水平居于世界前列。

这种差异的根源在于3D生成的核心是人工智能与图形学的交融,这催生了可扩展的大型3D模型。由于3D大模型是新兴领域,专业人才供不应求。顶尖人才的聚合如同人才漩涡,因为他们都在同一团队中,共同致力于相同的目标。反观大企业虽重金招募,但未必能获取最优人才。再者,3D生成所需的训练计算力与语言模型需求不同,不一定是计算力越大越好。尽管拥有大量计算卡可以进行多种试验,但这并不保证算法的先进性。

其次,我们作为AI 2.0公司,不应被低估。我们专注于目标,而像英伟达、Meta、腾讯这样的大公司在人力、财力和计算力投入上无法与我们相比。我们只关注这一领域,而他们可能更擅长学术研究。如今,我们的研究成果已超越他们。

另外,我们在3D生成领域的资源实际上超过了大企业。比如,英伟达曾大力推广其在LATTE 3D模型上的项目,但最终效果平平,使用率也不高,这让我们对大企业的实力有了更清醒的认识。

最近Meta发布了新的3D Gen版本,我们发现即使他们有所动作,我们的表现依然出色。

当3D技术提及VAST,或者AI 3D想到Tripo时,我们已经在该领域建立了坚实的基础,这种积累赋予了我们无畏的底气。

问:3D生成的门槛看起来确实很高?

VAST宋亚宸:没错,已经存在不少障碍。我们拥有海量数据优势,在人才聚集上也形成了竞争优势。市场反馈显示,我们的3D建模工具在用户数量和声誉上均领先同类产品。

但我认为,对于初创公司而言,真正的壁垒源自初心和愿景,即我们真正想要实现的是什么。

就像OpenAI推出Sora时,大家担心他们要做世界模拟器,觉得这个概念很厉害,会影响我们的计划。但我想的是,OpenAI的初心是什么?我的初心又是什么?如果初心一样,那他们确实有钱、人才也多;然而关键是我们想做的事情不一样。 别人也会把我们和一些大厂、教授创办的公司比较。我就会说,第一,他们玩不玩游戏?真的想不想进入虚拟世界?如果让他们天天不上班,在家戴着XR眼镜打游戏,他们愿不愿意?如果待一个月就会疯,那对不起,他们就和我们有本质的不同。

这也是为什么我们看到这个赛道上的很多“竞争对手”都在做其他事情了,甚至连Luma也去做视频了。

Q:您觉得现在VAST是处于从0到1的阶段,还是1到100的阶段?

VAST宋亚宸:我们肯定是刚刚起步。虽然产品和业务层面看起来比较顺利,但公司成立才一年多,还很年轻。3D大模型也是一件很新的事情,市场非常大且长期,这肯定是刚刚开始的状态。不过万事开头难,可能这第一步就占了50%。在第一步里,我还是那句话,迈出步去的初心最重要。

Q:那什么时候会是一个节点,比如完成了「1」?

VAST宋亚宸:我觉得这个“1”已经很快了。今年9、10月份,到今年年底,可能算是一个“1”和一个“2”,也就是我们的3D生成达到Midjourney V4甚至有望达到V5的水平。

这件事的关键不在于技术有什么质的突破,或者某个公关活动让大家关注这件事,而是说大模型生成的3D内容终于跨过了用户体验的红线。

我们内部从来不用技术术语讲事情,我们只关注用户体验和用户需求。当我们跨过了用户体验的门槛时,自然就达到了Midjourney V4甚至V5的水平。我们一直不断地与开发者、创作者、客户交流,了解他们到底想要什么,还缺少什么,这些反馈对于我们来说非常宝贵。

可能并非技术创新的颠覆性飞跃,例如更流畅的几何形状或更规整的布线布局。核心在于理解用户需求,洞悉哪些功能能够提升用户的使用感受。一旦我们达成这个目标,便实现了“1”;而当我们的表现超越用户的期待时,就迈入了“2”的境界。AI技术的应用已不再局限于科技界,它已广泛融入各个行业,成为驱动产业升级的关键驱动力。于是,“365行AI应用实践”专题应需而生,我们发掘并分享来自各行业的AI技术成功案例和解决方案,以启迪更多业内同仁。

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析