山西晚报2024年10月11日发布:智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

⭐发布日期:2024年10月11日 | 来源:山西晚报

⭐作者:张灏然 责任编辑:Admin

⭐阅读量:970 评论:3人

【2024澳门天天开好彩资料开奖结果今晚】

【澳门内部最精准免费资料】

【管家婆最快开奖结果】 【118-澳门开奖站】 【2024年香港图库香港图纸最新开奖记录】 【494949开奖历史记录最新开奖记录】 【老澳门开奖号码】 【新澳门彩最新开奖记录查询表下载】 【2024年澳门六开彩开奖结果直播视频开奖记录查询】 【澳门六开彩精准天天彩网开奖结果记录】
【澳门最精准免费资料大全旅游团开奖结果查询】 【澳彩开奖结果2024年今晚开奖】 【新澳2024年最新版资料】 【4949澳门今晚开奖结果】 【2024澳门今晚开什么马】 【2024年澳门精准正版资料】 【477777最快开奖!开奖历史记录】 【枪手瞄准特朗普画面曝光开奖结果记录】

视频大模型进入百模大战。

作者|赵健

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

  • 文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

  • 图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

END.

返回搜狐,查看更多

责任编辑:

【4949澳门开奖现场开直播开奖结果】 【香港正版二四六历史开奖】
【新澳门彩开奖结果今天】 【2024年澳门免费资料】
【澳门六开彩开奖直播+网站大全开奖结果查询】 【2024澳门最新开奖】
【2024年澳门资料图库】 【2024年新澳门天天开彩免费资料】
【2024年澳门六盒资料免费大全】 【澳门一肖一码一中一肖】
【澳门六开奖结果2024开奖记录查询开奖记录今晚】 【新澳门特马今期开奖结果开奖记录查询】 【澳门跑狗图免费正版图2024年开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

Jiao

4秒前:30秒将任意文字生成视频

IP:96.67.1.*

Martha

4秒前:今年是“视频生成”大模型爆发元年。

IP:49.45.2.*

埃琳娜·沙雷

3秒前:在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。

IP:64.16.8.*

山西晚报APP介绍

APP图标

2024年香港今晚开奖结果查询表APP名:山西晚报

版本:V2.41.257

更新时间:2024-10-10 24:13

刘伯温期期准准这是一个功能强大的2024澳门特马今晚开奖93APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

2024澳门天天六开彩今晚开奖号码APP介绍

APP图标

澳门码开奖结果2024开奖记录APP名:山西晚报

版本:V4.23.603

更新时间:2024-10-10 22:24

无论是澳门六今晚开什么特马快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

澳门开奖记录开奖结果2024APP介绍

APP图标

2023澳门全年资料免费APP名:山西晚报

版本:V1.59.523

更新时间:2024-10-10 21:16

新澳门2024开奖结果查询应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新澳门六开彩开奖结果近15期查询APP介绍

APP图标

溴门天天彩最准最快资料APP名:山西晚报

版本:V2.67.641

更新时间:2024-10-10 18:20

2024年新澳门开奖记录一肖一吗这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳门天天开好彩APP介绍

APP图标

新老澳开奖结果APP名:山西晚报

版本:V1.36.678

更新时间:2024-10-10 22:19

这是一款功能强大的新澳门内部正版资料大全应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

2024澳门精准正版资料大全下载APP介绍

APP图标

新奥全部开奖记录查询APP名:山西晚报

版本:V8.44.880

更新时间:2024-10-10 17:16

这是一款功能强大的一码一肖100准今晚澳门应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:张鹏认为,多模态模型的探索还处于非常初级的阶段。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

澳门马今期开奖结果APP介绍

APP图标

澳门挂牌正版挂牌完整挂牌大全APP名:山西晚报

版本:V6.28.351

更新时间:2024-10-10 13:19

这是一款功能强大的新澳今天晚上开奖号码应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳门资料大全正版资料APP介绍

APP图标

香港最新开奖结果+开奖结果APP名:山西晚报

版本:V5.85.887

更新时间:2024-10-10 16:20

今天的最新动态包括:对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

新澳门一马中特APP介绍

APP图标

新澳好彩免费资料查询2024APP名:山西晚报

版本:V3.61.845

更新时间:2024-10-10 17:21

这是一款功能强大的2024新澳免费资料绿波应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:提示词:古典美女 。

澳门正版资料全年免费公开2022APP介绍

APP图标

二四六免费资料大全板块APP名:山西晚报

版本:V7.24.706

更新时间:2024-10-10 21:16

这款功能强大的今晚澳门开什么号码应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

2024年新澳门天天开彩大全APP介绍

APP图标

2024澳门今晚开奖结APP名:山西晚报

版本:V9.93.316

更新时间:2024-10-10 17:24

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新澳门刘伯温一肖一码APP介绍

APP图标

香港今晚六给彩开奖结果八十九期APP名:山西晚报

版本:V3.29.631

更新时间:2024-10-10 21:17

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。