阿里云开源Qwen2:正在训练更大的模型,下一步做多模态

⭐发布日期:2024年09月20日 | 来源:百度百科

⭐作者:谢芳 责任编辑:Admin

⭐阅读量:835 评论:9人

【香港今晚六给彩号码结果记录】

【跑狗图正版高清新一代论坛】

【澳门马会传真免费资料大全】 【2024澳门资料正版大全】 【澳门一点红正版网】 【澳门金牛版论坛记录】 【澳门正版资料大全免费动态】 【澳门六开彩查询结果】 【澳门精准凤凰资料大全】 【谷歌TensorG5芯片已流片】
【2024年澳门的资料】 【一肖一码精准100准】 【澳门六宝典资料大全】 【澳门开彩2024记录】 【女排联赛土耳其女排不敌波兰】 【澳门天天免费资料大全192.1】 【澳门一肖一码100准唯一】 【管家婆精准资料大全一】

经过数月的努力,阿里云今天发布了Qwen2,包括:

5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B; 在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据; 多个评测基准上的领先表现; 代码和数学能力显著提升; 增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。

目前,Qwen2已在Hugging Face和ModelScope上同步开源。以下是核心信息:

//

1.模型基础信息

Qwen2系列包含5个尺寸的预训练和指令微调模型,其中包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B和Qwen2-72B。

在Qwen1.5系列中,只有32B和110B的模型使用了GQA。这一次,所有尺寸的模型都使用了GQA,以便让大家体验到GQA带来的推理加速和显存占用降低的优势。

针对小模型,由于embedding参数量较大,Qwen2使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。

上下文长度方面,所有的预训练模型均在32K tokens的数据上进行训练,其在128K tokens时依然能在PPL评测中取得不错的表现。然而,对指令微调模型而言,除PPL评测之外还需要进行大海捞针等长序列理解实验。在该表中,根据大海捞针实测结果,列出了各个指令微调模型所支持的最大上下文长度。而在使用YARN这类方法时,Qwen2-7B-Instruct和Qwen2-72B-Instruct均实现了长达128K tokens上下文长度的支持。

Qwen团队投入了大量精力研究如何扩展多语言预训练和指令微调数据的规模并提升其质量,从而提升模型的多语言能力。尽管大语言模型本身具有一定的泛化性,Qwen还是针对性地对除中英文以外的27种语言进行了增强:

此外,Qwen2针对性地优化了多语言场景中常见的语言转换(code switch)问题,模型当前发生语言转换的概率大幅度降低。使用容易触发语言转换现象的提示词进行测试,观察到Qwen2系列模型在此方面能力的显著提升。

2.模型评测

Qwen2发布后两小时,Hugging Face联合创始人兼首席执行官克莱门特·德朗格(Clément Delangue)发推宣布,HF开源大模型榜单新的第一出来了,Qwen2-72B。

在针对预训练语言模型的评估中,Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的开源模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。

大规模预训练后,对模型进行精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。此外,模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。微调过程遵循的原则是使训练尽可能规模化的同时并且尽可能减少人工标注。

Qwen团队探索了如何采用多种自动方法以获取高质量、可靠、有创造力的指令和偏好数据,其中包括针对数学的拒绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对角色扮演的scalable oversight等等。在训练方面,结合了有监督微调、反馈模型训练以及在线DPO等方法。还采用了在线模型合并的方法减少对齐税。

Qwen2-72B-Instruct在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。相比Qwen1.5的72B模型,Qwen2-72B-Instruct在所有评测中均大幅超越,并且了取得了匹敌Llama-3-70B-Instruct的表现。

而在小模型方面,Qwen2系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的最好的模型,Qwen2-7B-Instruct依然能在多个评测上取得显著的优势,尤其是代码及中文理解上。

代码 & 数学

在代码方面,Qwen团队成功将CodeQwen1.5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。而在数学方面,大规模且高质量的数据帮助Qwen2-72B-Instruct实现了数学解题能力的飞升。

长文本处理

Qwen2系列中的所有Instruct模型,均在32k上下文长度上进行训练,并通过YARN或Dual Chunk Attention等技术扩展至更长的上下文长度。

下图展示了在Needle in a Haystack测试集上的结果。值得注意的是,Qwen2-72B-Instruct能够完美处理128k上下文长度内的信息抽取任务。Qwen团队表示,“只要有充足的算力,它一定能成为你处理长文本任务的首选!”

此外,Qwen2-7B-Instruct几乎完美地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。

除了长上下文模型,Qwen还开源了一个智能体解决方案,用于高效处理100万tokens级别的上下文。

安全

下表展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来源于Jailbreak,并被翻译成多种语言进行评估。Llama-3在处理多语言提示方面表现不佳,因此没有将其纳入比较。通过显著性检验(P值),Qwen2-72B-Instruct模型在安全性方面与GPT-4的表现相当,并且显著优于Mistral-8x22B模型。

模型许可

此次Qwen2采用不同的模型许可。除了Qwen2-72B依旧使用此前的Qianwen License外,其余模型,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B以及Qwen2-57B-A14B在内,均采用Apache 2.0的许可。

3.Qwen2的下一步是什么?

Qwen团队表示,还在训练更大的模型,继续探索模型及数据的Scaling Law。此外,还将把Qwen2扩展成多模态模型,融入视觉及语音的理解。在不久的将来,还会继续开源新模型。返回搜狐,查看更多

责任编辑:

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【2024年新澳门王中王结果】
上一条新闻 下一条新闻

推荐文章

发表评论

多米尼克·库珀

6秒前:5的成功经验融入Qwen2的研发中,实现了在多种编程语言上的显著效果提升。

IP:93.35.4.*

卡雷斯·法兰西诺

7秒前:Qwen2-72B-Instruct在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。

IP:78.24.7.*

Tachibana

4秒前:5B、Qwen2-7B以及Qwen2-57B-A14B在内,均采用Apache 2.

IP:17.52.5.*

百度百科APP介绍

APP图标

澳门今晚开什么号码 结果准确APP名:百度百科

版本:V5.62.295

更新时间:2024-09-19 23:15

62103.com这是一个功能强大的新澳门六开彩资料大全2024APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Qwen团队投入了大量精力研究如何扩展多语言预训练和指令微调数据的规模并提升其质量,从而提升模型的多语言能力。

水2024年正版资料免费大全APP介绍

APP图标

2024澳门三肖三码精准100APP名:百度百科

版本:V6.86.353

更新时间:2024-09-19 21:18

澳门管家婆一码一肖资料这是一个功能强大的香港免费论坛资料六肖APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:还采用了在线模型合并的方法减少对齐税。

4777777现场直播记录金牛版APP介绍

APP图标

天空网资料免费大全APP名:百度百科

版本:V8.10.681

更新时间:2024-09-19 21:20

王中王资料大全枓大全正使用心得这是一个功能强大的男子蹲3天3夜砸晕前女友抢劫APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:此外,模型学会对齐人类价值观,它也随之变得更加对人类有帮助、诚实以及安全。

香港抓码王十码中特APP介绍

APP图标

澳门最难一肖一码一码APP名:百度百科

版本:V6.91.315

更新时间:2024-09-19 17:16

澳门平特一肖100%准资走江湖打锣鼓这是一个功能强大的新澳门天天彩资料正版免费特色APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Qwen2发布后两小时,Hugging Face联合创始人兼首席执行官克莱门特·德朗格(Clément Delangue)发推宣布,HF开源大模型榜单新的第一出来了,Qwen2-72B。

澳门历史结果APP介绍

APP图标

澳门六合全年资料APP名:百度百科

版本:V8.44.787

更新时间:2024-09-19 17:22

家婆2024年一肖一码正式资料这是一个功能强大的四肖八码期期期准免费APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:而在小模型方面,Qwen2系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型。

澳门一肖一码100精准20APP介绍

APP图标

2024澳门码今晚结果是什么APP名:百度百科

版本:V4.56.501

更新时间:2024-09-19 19:15

澳门正版精准免费挂牌这是一个功能强大的新澳资料网站APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:针对小模型,由于embedding参数量较大,Qwen2使用了tie embedding的方法让输入和输出层共享参数,增加非embedding参数的占比。

澳门王中王论坛资料APP介绍

APP图标

总书记考察城市社区殷殷嘱托暖人心APP名:百度百科

版本:V7.45.875

更新时间:2024-09-19 23:14

2024澳门六结果这是一个功能强大的4949cc澳门正版资料APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:代码 & 数学

新澳门资料大全免费新鼬077APP介绍

APP图标

2024香港资料大全+正版资料APP名:百度百科

版本:V3.41.970

更新时间:2024-09-19 24:19

新澳门六开彩结果2024年这是一个功能强大的新澳门彩记录APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:以下是核心信息: