深蓝保测评2024年10月11日发布:如何评测一个大语言模型?

⭐发布日期:2024年10月11日 | 来源:深蓝保测评

⭐作者:若菜忍 责任编辑:Admin

⭐阅读量:154 评论:4人

【澳门六开彩开奖开奖结果今晚】

【澳门平特一肖100%准资手机版下载】

【新奥天空彩免费大全】 【2024澳门今晚开什么号码】 【澳门今晚上开的什么特马最新开奖记录】 【2024澳门天天开好彩大全开奖记录双色球开奖】 【494949最快开奖结果 香港 新闻】 【新澳门2024年澳门开奖结果】 【今晚必出一肖一码开奖记录查询】 【澳门最精准免费资料大全旅游团开奖结果记录】
【新奥彩今晚开什么开奖结果查询】 【2024澳门传真图片今天】 【香港6合开奖结果+开奖结果今晚】 【2024澳门开奖结果公布】 【澳彩资料免费的资料大全wwe】 【2024新奥门免费资料】 【澳门内部正版资料大全嗅开奖历史记录】 【2024新澳门开奖资料开奖结果记录】

编者按:大型语言模型(Large language models, LLMs)因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 LLMs 在研究和实际应用中被广泛使用,对其进行有效评测变得愈发重要。近期已有多篇论文围绕大模型的评测进行研究,但尚未有文章对评测的方法、数据、挑战等进行完整的梳理。日前,微软亚洲研究院的研究员们参与完成了介绍大模型评测领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》。该论文一共调研了219篇文献,以评测对象 (what to evaluate)、评测领域 (where to evaluate)、评测方法 (How to evaluate)和目前的评测挑战等几大方面对大模型的评测进行了详细的梳理和总结。研究员们也将持续维护大模型评测的开源项目以促进此领域的发展。

为什么要研究大模型评测?

通俗来讲,大模型是一个能力很强的函数 f,与之前的机器学习模型并无本质不同。那么,为什么要研究大模型的评测?大模型评测跟以前的机器学习模型评测有何不同?

首先,研究评测可以帮助我们更好地理解大模型的长处和短处。尽管多数研究表明大模型在诸多通用任务上已达到类人或超过人的水平,但仍然有很多研究在质疑其能力来源是否为对训练数据集的记忆。如,人们发现,当只给大模型输入 LeetCode 题目编号而不给任何信息的时候,大模型居然也能够正确输出答案,这显然是训练数据被污染了。

其次,研究评测可以更好地为人与大模型的协同交互提供指导和帮助。大模型的服务对象终究是人,那么为了更好地进行人机交互新范式的设计,我们便有必要对其各方面能力进行全面了解和评测。如,我们最近的研究工作 PromptBench:首个大语言模型提示鲁棒性的评测基准,便详细地评测了大模型在“指令理解”方面的鲁棒性,结论是其普遍容易受到干扰、不够稳定,这便启发了我们从 prompt 层面来加强系统的容错能力。

最后,研究评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。大模型一直在不断进化,其能力也越来越强。那么,通过合理、科学的评测机制的设计,我们能否用演化的角度来评测其能力?如何提前预知其可能的风险?这都是重要的研究内容。

因此,研究大模型的评测具有十分重要的意义。

综述主要内容

自 ChatGPT 去2022年10月问世以来,关于大模型的研究变得炙手可热起来。我们希望探讨大模型研究的一个重要方向:模型评测。根据不完全统计(见下图),大模型的评测方面发表的文章呈上升趋势,越来越多的研究着眼于设计更科学、更好度量、更准确的评测方式来对大模型的能力进行更深入的了解。

为此,我们于近期完成了介绍大模型评测领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》。该论文一共调研了219篇文献,以评测对象 (what to evaluate)、评测领域 (where to evaluate)、评测方法 (How to evaluate)和目前的评测挑战等几大方面对大模型的评测进行了详细的梳理和总结。其研究目标是增强对大模型当前状态的理解,阐明它们的优势和局限性,并为其未来发展提供见解。同时,我们也将该项工作进行了开源,希望有更多同行参与,共同促进该领域的发展。

论文链接:

https://arxiv.2307.03109

开源链接:

https://github.com/MLGroupJLU/LLM-eval-survey

大模型评测相关研究:

https://llm-eval.github.io/

作为大型语言模型(Large language models, LLMs)评测的首次全面综述,本文主要从三个方面对现有工作进行了探索:

评测内容 (What to evaluate),对海量的 LLMs 评测任务进行分类并总结评测结果;评测领域 (Where to evaluate),对 LLMs 评测常用的数据集和基准进行了总结;评测方法 (How to evaluate),总结了目前流行的两种 LLMs 评测方法。

研究框架

此外,研究还对大模型评测不可或缺的三个维度内容进行了综合总结。最后,研究讨论了大模型评测时可能面临的重大挑战,为今后的研究提供了建议。

评测什么

本文的主要目的是总结和讨论目前在大型语言模型上的评测工作。在评测 LLMs 的性能时,选择合适的任务和领域对于展示大型语言模型的表现、优势和劣势至关重要。为了更清晰地展示 LLMs 的能力水平,文章将现有的任务划分为以下7个不同的类别:

自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务鲁棒性、伦理、偏见和真实性医学应用:包括医学问答、医学考试、医学教育和医学助手社会科学自然科学与工程:包括数学、通用科学和工程代理应用:将 LLMs 作为代理使用其他应用

这样的分类方式能够更好地展示 LLMs 在各领域的表现。需要注意的是,几个自然语言处理领域有交叉点,因此这种领域的分类只是一种可能的分类方式。

评测内容

在哪评测

我们通过深入探讨评测基准来回答在哪里评测的问题,如下图所示,评测基准主要分为通用基准(General benchmarks)和具体基准(Specific benchmarks)。

评测领域

随着 LLMs 基准测试的不断发展,目前已有许多受欢迎的评测基准。下表综述总结了19个流行的基准测试,每个基准关注不同的方面和评测标准,为各自的领域做出了贡献。

评测基准

如何评测

在本节中,文章介绍了两种常用的评测方法:自动评测和人工评测。这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。而人工评测则侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见。了解和掌握这两种评测方法对准确评测和改进语言模型的能力十分重要。

综述总结

在这一部分,文章总结了 LLMs 在不同任务中的成功和失败案例。

LLMs 能够在哪些方面表现出色?1. LLMs 在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。2. LLMs 在语言理解方面表现出色,能够进行情感分析和文本分类等任务。3. LLMs 具备强大的语境理解能力,能够生成与输入一致的连贯回答。4. LLMs 在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。

LLMs 在什么情况下可能会失败?1. LLMs 在生成过程中可能会表现出偏差和不准确性,导致产生有偏差的输出。2. LLMs 在理解复杂的逻辑和推理任务方面能力有限,在复杂的环境中经常出现混乱或错误。3. LLMs 在处理大量数据集和长期记忆方面面临限制,这可能会在处理冗长的文本和涉及长期依赖的任务方面带来挑战。4. LLMs 在整合实时或动态信息方面存在局限性,使得它们不太适合需要最新知识或快速适应变化环境的任务。5. LLMs 对提示非常敏感,尤其是敌对提示 ,这些提示会触发新的评测和算法,提高其鲁棒性。6. 在文本摘要领域,可以观察到 LLMs 可能在特定的评测指标上表现出低于标准的性能,这可能归因于那些特定指标的内在限制或不足。7. LLMs 在反事实任务中 的表现不令人满意。

重大挑战

评测作为一门新学科:我们对大模型评测的总结启发我们重新设计了许多方面。在本节中,我们介绍了以下7个重大挑战。

设计 AGI 基准测试。什么是可靠、可信任、可计算的能正确衡量 AGI 任务的评测指标?设计 AGI 基准完成行为评测。除去标准任务之外,如何衡量 AGI 在其他任务,如机器人交互中的表现?稳健性评测。目前的大模型对输入的 prompt 非常不鲁棒,如何构建更好的鲁棒性评测准则?动态演化评测。大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评测方法?可信赖的评测。如何保证所设计的评测准则是可信任的?支持所有大模型任务的统一评测。大模型的评测并不是终点、如何将评测方案与大模型有关的下游任务进行融合?超越单纯的评测:大模型的增强。评测出大模型的优缺点之后,如何开发新的算法来增强其在某方面的表现?

研究的重点是,评测应该被视为推动 LLMs 和其他人工智能模型成功的基本学科。现有的研究方案不足以对 LLMs 进行全面的评测,这可能为未来的 LLMs 评测研究带来新的机遇。

结论

评测具有深远的意义,在人工智能模型的发展中变得势在必行,在 LLMs 不断发展的背景下尤其如此。本文首次从评测什么、如何评测、在哪里评测三个方面对 LLMs 的评测进行了全面的概述。通过封装评测任务、协议和基准,研究的目标是增强对 LLMs 当前状态的理解,阐明它们的优势和局限性,并为未来 LLMs 的发展提供见解。

研究的调查显示,目前的 LLMs 在许多任务中都存在一定的局限性,尤其是推理和鲁棒性任务。与此同时,对当代评测系统进行调整和发展的需求依然明显,以确保对 LLMs 的内在能力和局限性进行准确评测。最后,本文确定了未来研究应该解决的几个重大挑战,并希望 LLMs 能够逐步提高大语言模型为人类服务的水准。

我们还在以下网站中汇总了本团队所有的大模型评测相关研究,欢迎关注:

https://llm-eval.github.io/

https://github.com/microsoft/promptbench

【2024白小姐开奖结果今晚开奖开奖结果】 【新奥门一马中特】
【澳门管家婆】 【2024澳门天天开好彩大全开奖记录走势图】
【2024年澳门六开彩开奖结果查询直播开奖结果查询】 【新奥彩今晚开什么号码42243】
【2024年新澳免费资料】 【新澳门开奖结果】
【新澳门特马今期开奖结果】 【开奖记录2024年澳门历史结果】
【澳门今晚开特马+开奖结果走势图793434开奖记录今晚】 【2024期澳门正版挂牌开奖记录查询】 【2024新奥管家婆002期资料开奖结果记录】
上一条新闻 下一条新闻

推荐文章

发表评论

Blumenstein

4秒前:评测作为一门新学科:我们对大模型评测的总结启发我们重新设计了许多方面。

IP:24.13.5.*

小连杀

4秒前:在这一部分,文章总结了 LLMs 在不同任务中的成功和失败案例。

IP:39.62.4.*

特伦斯·斯坦普

9秒前:最后,研究评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。

IP:35.81.5.*

深蓝保测评APP介绍

APP图标

新奥开奖历史记录查询APP名:深蓝保测评

版本:V1.76.105

更新时间:2024-10-10 16:22

新澳门资料大全正版资料2023年免费这是一个功能强大的2024澳门天天开好彩免费APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:除去标准任务之外,如何衡量 AGI 在其他任务,如机器人交互中的表现?

澳门三肖三码精准100%感慨人生APP介绍

APP图标

澳门开奖号码2024年开奖记录查询APP名:深蓝保测评

版本:V3.46.943

更新时间:2024-10-10 14:24

无论是2024澳门今天晚上开什么生肖快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

70349.com新奥门APP介绍

APP图标

777788888管家婆三期必APP名:深蓝保测评

版本:V2.89.127

更新时间:2024-10-10 15:19

2004管家婆一肖一码澳门码应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

新澳门资料免费资料大全APP介绍

APP图标

新澳门六开奖结果2024开奖记录查询网站APP名:深蓝保测评

版本:V1.59.508

更新时间:2024-10-10 16:24

六开彩香港开奖结果记录这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

澳门一码中精准一码的投注技巧APP介绍

APP图标

2024年澳门管家婆一肖一码一中奖APP名:深蓝保测评

版本:V8.11.540

更新时间:2024-10-10 21:24

这是一款功能强大的澳门今晚开奖结果是什么香应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:作为大型语言模型(Large language models, LLMs)评测的首次全面综述,本文主要从三个方面对现有工作进行了探索: 。无论是获取信息还是提升效率,这款APP都是您理想的助手。

新澳门今晚上开码结果APP介绍

APP图标

新奥彩今天晚上开奖结果查询表格APP名:深蓝保测评

版本:V2.99.920

更新时间:2024-10-10 24:16

这是一款功能强大的2024年澳门免费资料应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:论文链接: ,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

港澳管家婆7777788888APP介绍

APP图标

2024新澳门今晚开奖号码和香港APP名:深蓝保测评

版本:V7.35.900

更新时间:2024-10-10 22:15

这是一款功能强大的老澳门开奖结果2024开奖应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:本文的主要目的是总结和讨论目前在大型语言模型上的评测工作。,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

新澳门开奖现场开奖直播视频APP介绍

APP图标

精准一肖一码100准APP名:深蓝保测评

版本:V2.12.671

更新时间:2024-10-10 13:23

今天的最新动态包括:在本节中,我们介绍了以下7个重大挑战。,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

澳门2024年正版资料免费大全APP介绍

APP图标

澳门必出一肖一码100准APP名:深蓝保测评

版本:V5.80.660

更新时间:2024-10-10 15:21

这是一款功能强大的管家婆一奖一特一中应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:com/MLGroupJLU/LLM-eval-survey 。

澳门一码一肖一特一中直播APP介绍

APP图标

正版资料免费资料大全十点半APP名:深蓝保测评

版本:V2.98.415

更新时间:2024-10-10 21:17

这款功能强大的2024今晚香港开特马37期应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

新澳2024资料免费大全APP介绍

APP图标

香港四肖必中特期期准APP名:深蓝保测评

版本:V7.81.631

更新时间:2024-10-10 18:23

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

新澳门特马今期开奖结果查询2024APP介绍

APP图标

刘伯温五肖五码期期准APP名:深蓝保测评

版本:V9.71.513

更新时间:2024-10-10 15:20

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。