胡锡进2024年10月12日发布:智谱AI发布视频生成大模型,B站参与研发,亦庄提供算力|甲子光年

⭐发布日期:2024年10月12日 | 来源:胡锡进

⭐作者:钟继昌 责任编辑:Admin

⭐阅读量:474 评论:6人

【香港正版资料大全更新时间】

【49123.cσm查询澳彩资料】

【2024精准免费大全】 【澳门正版资料大全有哪些】 【2024澳门资料正版大全】 【2024澳门精准正版】 【澳门正版资料免费大全2020】 【2024澳门正版平特一肖】 【2024澳门正版资料大全】 【澳门王中王18码免费观看资料】
【2024香港/澳门资料大全】 【澳门今一必中一肖一码一肖】 【最准一肖一码100%香港78期】 【2024新澳免费资料大乐季】 【新澳2024年精准资料32期】 【澳门正版资料大全十今年免费】 【二四六天天彩资料大全网】 【苏丹内战还要持续多久】

视频大模型进入百模大战。

作者|赵健

今年是“视频生成”大模型爆发元年。在过去两个月,我们看到了快手可灵、商汤Vimi、Luma AI、爱诗科技Pixverse、Runway Gen-3等等视频大模型的你追我赶。

但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。

而下半年,大语言模型公司将逐渐跟随OpenAI的脚步,纷纷入场视频大模型,把语言模型与视频模型做大一统。

在备受瞩目的“大模型六小强”中,动作最快的是智谱AI。

今天上午,这家清华系大模型独角兽上线视频生成大模型产品“清影”,直接面向所有用户开放,支持文生视频与图生视频。

在智谱清言PC或App里输入一段文字或图片后(即Prompt),用户可以选择自己想要生成的风格,包括卡通3D、黑白、油画、电影感等,配上清影自带的音乐,就生成了充满AI想象力的视频片段;此外,“AI动态照片小程序”支持图生视频。

对于现在视频大模型领域的格局,张鹏认为大概也会像大语言模型一般,进入百家争鸣的格局。

在商业化策略上,清影目前的付费方案是:首发测试期间,所有用户均可免费使用;付费5元,解锁一天(24小时)的高速通道权益,付费199元,解锁一年的付费高速通道权益。智谱AI CEO张鹏表示:“现在的商业化仍处于非常早期的阶段,而且成本实际上也非常高,后面会根据市场的反馈做逐步迭代。”

清影API也同步上线智谱大模型开放平台,企业和开发者通过调用API的方式,体验和使用文生视频以及图生视频的模型能力。

清影的研发得到北京市的大力支持。海淀区是智谱AI总部所在地,为智谱AI开展大模型研发提供了产业投资、算力补贴、应用场景示范、人才等全方位支持;清影的训练依托亦庄高性能算力集群,在北京亦庄算力集群诞生,未来也将应用于北京亦庄广阔的高精尖产业集群,形成大模型赋能实体经济的新业态。

在生态合作上,bilibili作为合作伙伴也参与了清影的技术研发过程,并致力于探索未来可能的应用场景。同时,合作伙伴华策影视也参与了模型共建。

1.30秒将任意文字生成视频

清影的具体效果如何?先看一下官方发布的几支视频案例(都配上了音乐)。

  • 文生视频:

提示词:低角度向上推进,缓缓抬头,冰山上突然出现一条恶龙,然后恶龙发现你,冲向你。好莱坞电影风

提示词:在霓虹灯闪烁的赛博朋克风格城市夜景中,手持跟拍的镜头缓缓推近,一个机械风格的小猴子正在用高科技工具维修,周围是闪烁的电子设备和未来主义的装修材料。赛博朋克风格,气氛神秘,4K高清。

提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条

  • 图生视频

提示词:古典美女

提示词:一条龙的口中喷射出火焰,烧毁了一个小村庄

提示词:水豚慵懒地用吸管喝可乐,扭头朝向相机

清影的视频生成时长为6s左右,输入提示词之后需要等待时间是30s左右。张鹏表示,这个生成速度在业内已经算非常快了。

张鹏认为,多模态模型的探索还处于非常初级的阶段。从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

2.自研DiT架构

清影底座的视频生成模型是CogVideoX,它将文本、时间、空间三个维度融合起来,参考了Sora的算法设计。CogVideoX也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。

智谱主要分享了CogVideoX 的三个技术特点:内容连贯性、可控性、模型结构。

首先,为了解决内容连贯性的问题,智谱自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,以此减少视频扩散生成模型的训练成本及训练难度。

模型结构方面,智谱采用因果三维卷积(Causal 3D convolution)为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备不同分辨率迁移使用的能力。

同时,在时间维度上因果卷积的形式也使得模型具备视频编解码具备从前向后的序列独立性,便于通过微调的方式向更高帧率与更长时间泛化。

从工程部署的角度,智谱基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器进行微调及部署,使其具备支持在更小的显存占用下支持极高帧数视频的编解码的能力。

第二点是可控性。现在的视频数据大多缺乏对应的描述性文本或者描述质量低下,为此智谱自研了一个端到端的视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

这也是Sora用到的方式。OpenAI用DALL·E 3 的“重新字幕技术”(re-captioning technique)训练了一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。此外,OpenAI 还利用GPT将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。

最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

然而两种模态的特征空间有很大差异,智谱通过expert adaptive layernorm对文本和视频两个模态分别进行处理来弥补这一差异,这样可以更有效地利用扩散模型中的时间步信息,使得模型能够高效利用参数来更好地将视觉信息与语义信息对齐。

其中注意力模块采用了3D全注意力机制,先前的研究通常使用分离的空间和时间注意力或者分块时空注意力,它们需要大量隐式传递视觉信息,大大增加了建模难度,同时它们无法与现有的高效训练框架适配。

位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

3.Scaling Law仍在发挥作用

智谱在AIl in大模型路线之初,就开始多模态领域相关布局。从文本,到图片再到视频,大模型对世界的理解逐渐复杂、逐渐多维。大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

智谱对于多模态大模型的研究可追溯到2021年。从2021年开始,智谱先后研发了CogView(NeurIPS’21)、 CogView2(NeurIPS’22)、CogVideo(ICLR’23)、Relay Diffusion(ICLR’24)、CogView3 (2024)。

基于CogView,团队研发基于大模型的文本到视频生成模型CogVideo,采用了多帧率分层训练策略生成高质量的视频片段,提出一种基于递归插值的方法,逐步生成与每个子描述相对应的视频片段,并将这些视频片段逐层插值得到最终的视频片段。这个工作引起脸书、谷歌、微软的广泛关注,在后面脸书的Make-A-Video、谷歌的Phenaki和MAGVIT、微软女娲DragNUWA、英伟达Video LDMs等视频生成模型工作中都有引用。

2024年5月,GLM大模型技术团队在ICLR 2024主旨演讲环节全面阐述了GLM大模型面向AGI三大技术趋势,原生多模态大模型在其中扮演重要角色:GLM大模型团队认为,文本是构建大模型的关键基础,下一步则应该把文本、图像、视频、音频等多种模态混合在一起训练,构建真正原生的多模态模型。

智谱全方位布局大模型系列产品,多模态模型始终扮演着重要角色。智谱已经验证了Scaling Law在视频生成方面的有效性,未来会在不断scale up数据规模和模型规模的同时,探究更具突破式创新的新型模型架构,更高效地压缩视频信息,更充分地融合文本和视频内容。

张鹏认为,未来大模型的技术突破方向之一就是原生多模态大模型,Scaling Law将继续在算法与数据两方面发挥作用。

“我们还没有看到技术曲线放缓的迹象。”张鹏表示。

(封面图及文中配图来源:智谱)

END.

返回搜狐,查看更多

责任编辑:

【香港.一码一肖资料大全】 【2o24年管家婆一肖中特】
【二四六香港码今晚预测】 【2024全年免费资料公开】
【2024新澳免费资料】 【澳门王中王六码新澳门】
【澳门四不像正版论坛超准资料精准】 【新澳门免费资料大全最新】
【新澳2024年记录】 【香港6合结果+记录】
【2024澳门天天彩】 【今天是什么日子】 【澳门正版资料免费更新结果查询】
上一条新闻 下一条新闻

推荐文章

发表评论

芮恩

9秒前:最后是智谱自研的一个将文本、时间、空间三个维度全部融合起来的transformer架构,它摒弃了传统的cross attention模块,而是在输入阶段就将文本embedding和视频embedding concat起来,以便更充分地进行两种模态的交互。

IP:43.98.2.*

露西·弗莱

3秒前:位置编码模块设计了3D RoPE,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

IP:63.78.4.*

周铁

9秒前:从模型本身角度看,需要更具突破式创新的新模型架构,它应该更高效压缩视频信息,更充分融合文本和视频内容,贴合用户指令的同时,让生成内容真实感更高。

IP:20.57.7.*

胡锡进APP介绍

APP图标

新澳内部资料精准一码APP名:胡锡进

版本:V4.84.531

更新时间:2024-10-11 23:20

7777788888精准这是一个功能强大的管家婆白小姐三肖三码必出一APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:大模型通过对各种模态的学习,涌现出理解、知识和处理不同任务的能力。

新澳门精准资料期期精准最全APP介绍

APP图标

进口产品交哪些税APP名:胡锡进

版本:V6.38.444

更新时间:2024-10-11 19:15

无论是澳门王中王100%的资料快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

7777788888香港马APP介绍

APP图标

正版资料免费资料大全APP名:胡锡进

版本:V3.85.749

更新时间:2024-10-11 17:20

澳门六和合资料网站应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

澳门一肖一码100%准确127期APP介绍

APP图标

2024今晚新澳六我奖51期APP名:胡锡进

版本:V3.93.484

更新时间:2024-10-11 17:13

新澳门六会精准免费这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳门马资料最准的2024APP介绍

APP图标

管家婆免费资料4949APP名:胡锡进

版本:V5.37.945

更新时间:2024-10-11 21:13

这是一款功能强大的2024年澳门天天彩免费资料应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:提示词:广告拍摄视角,黄色背景,白色桌子上,画面中一个土豆被扔下来变成一份薯条 。无论是获取信息还是提升效率,这款APP都是您理想的助手。

今晚必中一码一肖澳门APP介绍

APP图标

2024澳门资料大全正版资料下载APP名:胡锡进

版本:V3.13.971

更新时间:2024-10-11 16:16

这是一款功能强大的澳门天天开好彩大全应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:但上半年的视频生成大模型公司,往往只聚焦在视频生成这一个功能。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

2024澳门资料免费大全APP介绍

APP图标

2024年澳门正版资料大全APP名:胡锡进

版本:V1.10.258

更新时间:2024-10-11 19:23

这是一款功能强大的澳门4949资料网站应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:清影的具体效果如何?,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

澳门2024资料大全APP介绍

APP图标

澳门正版资料大全免费玄武冰心块APP名:胡锡进

版本:V2.98.864

更新时间:2024-10-11 13:23

今天的最新动态包括:张鹏认为,多模态模型的探索还处于非常初级的阶段。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

4949澳门彩结果生肖版APP介绍

APP图标

新澳好彩免费资料查询石狮APP名:胡锡进

版本:V2.11.435

更新时间:2024-10-11 15:13

这是一款功能强大的澳门今晚必中一码应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:从生成视频的效果看,对物理世界规律的理解、高分辨率、镜头动作连贯性以及时长等,都有非常大的提升空间。。

2024新澳免费资料三头67期APP介绍

APP图标

香港正版资料全年资料有限公司APP名:胡锡进

版本:V6.86.183

更新时间:2024-10-11 22:19

这款功能强大的澳门马会传真(内部资料)应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

新澳门三肖三码精准资料最新版本APP介绍

APP图标

新澳精准资料免费提供彩吧助手APP名:胡锡进

版本:V1.73.814

更新时间:2024-10-11 21:19

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

香港全年资料大全免费APP介绍

APP图标

2O24年澳门今晚开码料APP名:胡锡进

版本:V5.53.447

更新时间:2024-10-11 22:24

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。