跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

火山引擎发布了大型模型训练的视频预处理方案,并已将其应用于豆包视频生成模型。

编辑日期:2024年10月17日

豆包视频生成背后的秘笈揭晓

10月15日,火山引擎在视频云技术大会上发布了大型模型训练视频预处理方案,旨在解决视频大模型训练在成本、质量和性能等方面的挑战。目前,这一技术方案已成功应用于豆包视频生成模型中。

火山引擎总裁谭待在会上致辞时表示,随着AIGC(人工智能生成内容)和多模态技术的发展,用户体验正在多个维度上发生深刻变化。“结合抖音的实际业务经验和与行业客户的合作创新,火山引擎视频云正在积极探寻AI大模型与视频技术的深度整合之道,从技术基础、处理流程到业务增长等多个层面为企业提供解决方案。”谭待如是说。

据其介绍,对训练视频进行预处理是确保大模型训练效果的关键步骤。通过预处理,可以统一视频的数据格式、提升数据质量、实现数据标准化、减少数据量以及优化标注信息,从而帮助模型更有效地学习视频中的特征和知识,提高训练的效果和效率。

抖音集团视频架构负责人王悦指出,对于大模型供应商来说,这一过程充满了各种挑战。

“首先,超大规模的视频训练数据集会导致计算和处理成本急剧上升,”王悦解释道,“其次,视频样本数据的质量参差不齐;再者,处理链路复杂且环节众多;最后,还需面对GPU、CPU、ARM等多种异构计算资源的调度难题。”

火山引擎此次发布的大型模型训练视频预处理方案,利用Intel的CPU等资源,基于自主研发的多媒体处理框架BMF,能够有效应对模型训练中的算力成本问题。此外,该方案在算法和工程上也进行了优化,能够高效地对大量视频数据进行高质量预处理,快速实现处理流程的高效协作,显著提升模型训练效率。值得一提的是,火山引擎还发布了移动端后处理解决方案BMF的精简版——BMF lite,支持终端设备上的大模型接入及算子加速,具有更轻量、更通用的特点。

字节跳动研究负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支持。火山引擎视频云团队提供的点播解决方案还为PixelDance生成的视频提供了从编辑、上传、转码、分发到播放的全生命周期一站式服务,确保了模型的商业应用。

据了解,豆包视频生成模型PixelDance于9月24日发布,该模型采用DiT架构,通过高效的DiT融合计算单元和全新的扩散模型训练方法,解决了多主体运动的复杂交互和多镜头切换的内容一致性问题,在业界引起了广泛关注。目前,豆包视频生成模型已通过火山引擎向企业开放测试。

在此次活动中,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解和生成方案、对话式AI实时交互方案以及AIG3D和大场景重建方案,从视频的生产端、交互端到消费端,全面融入了AI能力。

火山引擎视频云负责人Yongyuan指出,在AI视频时代,人与AI的交互变得更加动态和生动,这要求处理链路更加智能化和交互化。

以对话式AI实时交互方案为例,依托豆包大模型和火山引擎视频云自主研发的多项算法,火山引擎为用户提供了强大的智能对话和自然语言处理能力,实现了毫秒级的人声检测和打断响应,以及流畅稳定的端到端响应体验。

在沉浸式消费体验方面,火山引擎通过AI生成3D内容和大场景重建方案,为山西高平二郎庙金代戏台和北京正乙祠两座珍贵的历史建筑生成了3D数字资产,并以虚拟直播间的形式应用于抖音的戏曲直播场景。

大会上,王悦还透露了字节跳动自研视频编解码芯片的最新进展,经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上,并在2024年MSU世界编码器大赛中荣获最佳ASIC编码器奖。

王悦表示,该芯片即将正式对外开放测试,招募首批种子用户,共同探索其商业价值的可复制性。火山引擎视频云团队为字节跳动提供音视频技术支持,并通过火山引擎服务于外部客户。

火山引擎发布了大型模型训练的视频预处理方案

提供全流程、端到端的实时3D虚拟人服务

火山引擎发布了大型模型训练的视频预处理方案

利用大模型为机器人打造“大脑”

火山引擎发布了大型模型训练的视频预处理方案

AI学会“三思而后行”和“换位思考”

火山引擎发布了大型模型训练的视频预处理方案

让技术产品更好地服务于公益机构的数字化

火山引擎发布了大型模型训练的视频预处理方案

现场直接开启挑战

火山引擎发布了大型模型训练的视频预处理方案

CCF-阿里妈妈科技袋基金

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析