AI能力评估方法调研报告
引言:AI能力评估的关键作用
随着人工智能模型能力的不断增强及其在各个领域的广泛应用,对这些模型进行稳健且可靠的评估变得至关重要。评估在通用人工智能开发过程的每个阶段都至关重要,包括模型选择、提示工程和模型定制。理解不同AI模型的优势和劣势对于在各种应用中做出明智的决策至关重要。AI评估有助于识别需要改进的领域、潜在的偏见以及与预期目标的偏差。对AI进行系统评估需要一个全面的框架,涵盖工作和生活中所需的各种人类技能。本报告将深入探讨当前常用的、先进的和流行的AI评估方法,分析它们的优缺点、提出者以及不同类型的AI大语言模型在这些评估中的表现和原因。
关键AI能力评估基准的深入分析
- MMLU(大规模多任务语言理解)
- 评估范围和题型
- MMLU是一个通用基准,旨在评估模型在不同主题上的表现。
- 它测试AI系统在57个不同学科上的能力,范围从数学、科学到人文和社会科学以及专业领域。
- 该基准涵盖人文科学、STEM领域、社会科学和专业学科等主题。
- 它评估知识的广度和推理能力。
- MMLU采用四选一的多项选择题形式。
- 问题的难度级别从本科生到专家级不等。
- 它同时测试一般的世界知识和解决问题的能力。
- 评估模型在零样本和少样本设置下的多任务准确性。
- 分析 1: MMLU广泛涵盖众多学术和专业领域,使其成为评估通用智能的全面测试,也是衡量实际应用潜力的良好指标。
- 分析 2: MMLU的题型设计旨在评估模型在不同领域之间的知识迁移能力,这对于反映真实世界中需要跨领域理解和应用知识的场景至关重要。
- 难度级别和创建者
- MMLU的创建旨在比2020年9月发布时现有的基准更具挑战性。
- 在其发布时,大多数模型的表现接近随机水平(25%)。
- 创建者估计人类领域专家的准确率约为89.8%。
- MMLU由Dan Hendrycks和一组研究人员发布。
- 更新的版本,如MMLU-Pro,集成了更具挑战性、更侧重于推理的问题,并将答案选项增加到十个。
- MMLU-Pro旨在解决原始MMLU中的数据质量和数据污染问题。
- 分析 3: 从MMLU到MMLU-Pro难度的增加反映了AI模型的进步以及对更具挑战性的基准的需求,以便区分它们的能力。
- 分析 4: MMLU的难度设计旨在确保只有具备广泛知识和强大推理能力的模型才能取得高分,从而推动AI模型向更高的智能水平发展。
- 不同大语言模型的性能及原因
- GPT-4在MMLU上取得了令人印象深刻的准确率,处于领先地位。
- 其他表现优异的模型包括Llama 3.1、Gemini Ultra和Claude 3 Sonnet。
- 模型在不同学科上的表现各不相同,通常在逻辑和数学方面得分较高。
- GPT-4o在MMLU上达到了87%的准确率。
- Llama 3.1 (405B)达到了86.6%。
- Gemini Ultra达到了83.7%。
- Claude 3 Sonnet达到了79%。
- Grok-3达到了92.7%。
- GPT-4的准确率稳定在88%左右。
- 模型性能可能对提示技巧很敏感。
- GPT-4的强大性能归功于其先进的推理能力、指令遵循能力和大型上下文窗口。
- 即使在同一领域内,模型也可能因任务的细微差别而表现不同。
- 分析 5: LLM在MMLU上的性能是衡量其一般知识和推理能力的关键指标,但它并非衡量其整体智能或是否适合特定任务的唯一标准。
- 分析 6: 不同模型在MMLU上的性能差异反映了它们在训练数据、模型架构和推理机制上的不同特点,这有助于研究人员理解哪些方法能够更好地提升模型的通用知识和推理能力。
- 评估范围和题型
- MATH
- 评估范围和题型
- MATH是一个包含具有挑战性的竞赛数学问题的数据库。
- 它包含来自高中数学竞赛的12,500道问题。
- 问题涵盖代数、几何、概率、微积分和数论等各个分支。
- 每个问题都有完整的逐步解决方案。
- 它评估模型解决高中数学竞赛文字题的能力。
- 分析 7: MATH作为一个严格的基准,用于评估AI模型的数学推理和解决问题的能力,要求提供逐步推导过程,而不仅仅是最终答案。
- 分析 8: MATH的题型设计侧重于考察模型对数学概念的深层理解和应用能力,这与实际数学研究和解决复杂问题的过程更为贴近。
- 难度级别和创建者
- MATH被设计成具有挑战性的,问题来源于AMC和AIME等竞赛。
- 一个没有很强数学背景的博士生在MATH上得了40分,而一个三届IMO金牌得主得了90分。
- 该数据集首次推出时,即使是最好的LLM也只达到了6.9%。
- MATH数据集由Dan Hendrycks等人推出。
- 随着当前模型在MATH上接近饱和,已经引入了更新、更具挑战性的数学基准,如FrontierMath。
- FrontierMath包含未发表的专家级问题,专家需要花费数小时才能解决。
- 分析 9: MATH的高难度,尤其是与最初LLM的表现相比,突显了数学推理的复杂性以及AI在该领域取得的进展。更难基准的出现表明人们不断追求更具挑战性的评估。
- 分析 10: MATH的难度级别旨在区分不同AI模型在数学推理方面的能力,并推动模型向着解决更高级别数学问题的方向发展。
- 不同大语言模型的性能及原因
- Grok-3在MATH上领先,得分为93.3%。
- Gemini 2.5达到了92.0%。
- GPT-o3 mini得分为87.3%。
- Claude 3.7 Sonnet达到了80.0%。
- 在与其他模型的比较中,GPT-4o在MATH任务上得分最高。
- OpenAI o3-mini在MATH上达到了87.3%。
- MATH上的性能需要强大的数学推理和解决问题的能力。
- 推理模型往往在这些任务上表现最佳。
- 分析 11: 不同模型在MATH上的不同表现突显了AI架构和训练方法在解决复杂数学问题方面的多样化优势。具有专门推理能力的模型通常表现更优异。
- 分析 12: Grok-3和Gemini 2.5在MATH上的成功表明,链式思维推理和对大规模计算资源的访问对于在具有挑战性的数学基准上取得优异性能至关重要。
- 评估范围和题型
- AIME(美国邀请数学考试)
- AI评估范围和题型
- AIME是一项选拔性的、具有挑战性的数学竞赛,面向在AMC考试中表现优异的高中生。
- 这是一项3小时的考试,包含15道自由回答题,每题的答案都必须是000到999之间的整数。
- 涵盖代数、几何、数论、概率和组合数学等主题。
- 问题比AMC 10和AMC 12中的问题难得多。
- 得分最高的参与者有资格参加USAMO或USAJMO。
- 分析 13: AIME具有挑战性的自由回答形式以及对高级高中数学的覆盖,使其成为评估AI在数学领域中深度理解和解决问题能力的严格测试。
- 分析 14: AIME的题型设计旨在考察模型是否能够灵活运用各种数学知识和技巧来解决问题,这对于评估模型是否具备真正的数学智能至关重要。
- AI评估难度和创建者
- AIME被认为极具挑战性,人类考生的中位数得分在15题中仅为4到6题。
- 它由美国数学协会(MAA)管理。
- AIME始于1983年,每年举办两次。
- 难度级别与AI数学奥林匹克进步奖竞赛中约50%的问题相当。
- 它比MATH等基准测试的难度更高。
- 分析 15: AIME持续较低的人类中位数得分突显了其难度,使其成为评估AI解决超出标准高中课程范围的真正具有挑战性的数学问题能力的重要基准。
- 分析 16: AIME的难度级别旨在确保只有具备顶尖数学能力的模型才能在该基准上取得显著成绩,从而推动AI在高级数学推理方面的发展。
- AI评估中不同模型的性能及原因
- o3 Mini在AIME上取得了最高的准确率,为86.5%。
- DeepSeek R1得分为74.0%。
- o1得分为71.5%。
- Grok 3 Mini Fast Beta High Reasoning也表现良好。
- 推理模型通常表现最佳。
- 与较新的2025年问题相比,模型在较旧的2024年版本上表现更好,这引起了人们对数据污染的担忧。
- o1-mini在被告知使用更多tokens时往往能获得更好的结果。
- OpenAI o1在AIME中位列美国排名前500名学生。
- 分析 17: 虽然AI模型在AIME上取得了令人印象深刻的分数,但由于问题公开可用而存在数据污染的可能性,在解释这些结果时需要谨慎。在旧问题上表现更好支持了这种担忧。
- 分析 18: 不同模型在AIME上的性能差异可能受到它们在训练数据中接触到的竞赛数学问题的数量和类型的影响,以及它们采用的特定推理和问题解决策略的影响。
- AI评估范围和题型
- GSM8K(八千年级小学数学)
- 评估范围和题型
- GSM8K是一个高质量、语言多样的八千道小学数学应用题数据集。
- 包含由人类问题编写者创建的8,500道问题。
- 侧重于需要多步推理的基本数学问题。
- 问题涉及基本的算术运算(+、-、×、÷)。
- 解决方案通常需要2到8个步骤。
- 分析 19: GSM8K提供了一个评估AI理解和解决需要通过多个步骤进行逻辑推理的简单数学文字题能力的基准。
- 分析 20: GSM8K的题型设计旨在考察模型是否能够将自然语言描述的数学问题转化为一系列可执行的算术运算,并最终得到正确的答案。
- 难度级别和创建者
- 问题概念简单,但由于多样性高,对于最先进的语言模型来说可能具有挑战性。
- 一个聪明的初中生应该能够解决每一个问题。
- 该数据集由OpenAI和Surge AI创建。
- 相关论文的作者包括Karl Cobbe等人。
- 分析 21: 尽管数学水平是小学水平,但GSM8K的语言多样性和需要多步推理使其成为AI的一个不简单的基准,突显了弥合自然语言理解与数学问题解决之间差距的挑战。
- 分析 22: GSM8K的难度级别适中,既能考察模型的基本数学能力,又能检验其进行多步推理和解决实际问题的能力。
- 不同大语言模型的性能及原因
- Anthropic Claude 3达到了95%的准确率。
- Google Gemini Ultra得分为94.4%。
- OpenAI GPT-4达到了92%。
- Grok-3达到了90%。
- Claude 3.5 Sonnet (HPT)达到了97.72%。
- DUP prompt upon GPT-4达到了97.1%。
- 性能随着时间的推移显着提高,顶级模型接近饱和。
- 链式思维提示是一种常用的实现高性能的技术。
- 验证技术也显着提高了性能。
- 分析 23: 顶级模型在GSM8K上取得的高准确率表明AI在解决数学文字题方面取得了显着进展。链式思维推理和验证等技术在其中发挥着关键作用。然而,接近饱和的状态表明需要更具挑战性的基准。
- 分析 24: 不同模型在GSM8K上的性能差异可能与它们在训练过程中学习到的解决数学问题的方法和策略有关,以及它们在执行多步推理时的能力有关。
- 评估范围和题型
- PIQA(物理交互:问题回答)
- 评估范围和题型
- PIQA是一个多项选择题数据集,测试模型在自然语言中推理物理常识的能力。
- 侧重于涉及物理知识的日常场景,偏好非典型的解决方案。
- 每个问题都有一个目标和两个可能的解决方案,一个是正确的,一个是错误的。
- 灵感来源于instructables.com,该网站提供关于如何使用日常材料制作、手工制作或操作物品的说明。
- 分析 25: PIQA评估了一般智能的一个关键方面——理解物理世界和日常物体的交互方式,这通常需要超越常见或典型的用途进行推理。
- 分析 26: PIQA的题型设计旨在考察模型是否具备将自然语言描述的物理场景转化为对物体属性、功能和相互作用的理解的能力。
- 难度级别和创建者
- 人类认为该数据集很容易(约95%的准确率),但大型预训练模型却难以应对(约75%)。
- 该数据集由Yonatan Bisk等人创建。
- 它包含大约20,000个问答对。
- 分析 27: 人类和AI在PIQA上表现的显着差距突显了AI在仅从文本中获取和应用物理常识知识方面面临的挑战。
- 分析 28: PIQA的难度级别旨在区分模型是否具备对物理世界的基本理解,以及是否能够基于这种理解进行推理和选择合适的解决方案。
- 不同大语言模型的性能及原因
- Unicorn 11B取得了最高的准确率,为90.1%。
- LLaMA3 8B+MoSLoRA达到了89.7%。
- CompassMTL 567M with Tailor达到了88.3%。
- 性能需要理解物体属性、功能和因果关系。
- 模型难以处理需要对世界进行稳健的直观物理模型进行推理的问题。
- 分析 29: 像Unicorn 11B这样的模型的性能表明,具有专门训练或架构的较大模型可能更适合处理PIQA的物理推理需求。
- 分析 30: Unicorn 11B在PIQA上的成功可能归因于其专注于通用常识推理的训练,这使其能够更好地理解和回答关于物理交互的问题。
- 评估范围和题型
- ARC(AI2推理挑战)
- 评估范围和题型(Easy vs. Challenge)
- ARC是一个包含小学科学问题的问答数据集。
- 侧重于3到9年级的科学考试题。
- 分为Easy和Challenge两个子集,Challenge包含需要推理的更困难的问题。
- Challenge子集包含检索式算法和词共现算法都无法正确回答的问题。
- ARC-AGI(通用人工智能抽象和推理语料库)是另一个基准,侧重于视觉推理和在新的任务上快速学习技能的效率。
- ARC-AGI任务涉及基于网格的视觉推理问题。
- 分析 31: ARC分为Easy和Challenge两个子集,可以评估不同层次的推理能力,Challenge子集专门针对需要更高级推理的问题。另一方面,ARC-AGI测试的是与抽象推理和从少量示例中快速学习相关的另一种智能。
- 分析 32: ARC-AGI的题型设计旨在考察模型是否具备人类在面对全新问题时所展现出的抽象、推理和泛化能力。
- 难度级别和创建者
- ARC Challenge对于LLM来说比ARC Easy更难。
- ARC由艾伦人工智能研究所(AI2)创建。
- ARC-AGI由François Chollet推出。
- ARC-AGI被设计成对人类来说容易,但对AI来说很难。
- ARC-AGI侧重于流体智力,只需要基本的常识知识。
- 分析 33: ARC-AGI(“人类容易,AI困难”)的设计原则使其成为一个独特的基准,用于识别人类智能和人工智能之间根本的区别,尤其是在抽象推理和泛化方面。
- 分析 34: ARC-AGI的难度级别旨在考察模型是否具备人类在解决全新问题时所展现出的灵活性、创造性和高效性。
- 不同模型的性能及原因
- GPT-4o在ARC上取得了高准确率。
- ST-MoE-32B在ARC Easy上表现良好。
- GPT-4在ARC Challenge上表现良好。
- 由于评估设置,LLM通常难以应对ARC Challenge。
- OpenAI o3在ARC-AGI上取得了突破性进展。
- 纯LLM在ARC-AGI-2上得分为0。
- o3在ARC-AGI上的性能归功于其程序合成能力。
- ARC-AGI的性能随着模型规模的增大而提高。
- 分析 35: 像o3这样的模型在ARC-AGI上的显着进步表明AI处理抽象推理任务的能力有所提高,但ARC-AGI-2持续存在的挑战表明,真正的通用智能仍然遥远。
- 分析 36: 模型在ARC上的性能差异可能反映了它们在理解科学概念、进行逻辑推理以及处理多项选择题方面的不同能力。
- 评估范围和题型(Easy vs. Challenge)
- CLUE(中文语言理解评估)
- 评估范围和任务
- CLUE是一个中文语言理解评估基准。
- 它包括多个任务,涵盖单句/句对分类和机器阅读理解。
- 任务包括主题分类、语义相似度评分和自然语言推理。
- 还包括长文本分类和机器阅读理解等任务。
- CLUE旨在评估LLM在中文临床任务中的实际应用能力。
- 分析 37: CLUE提供了一个全面的基准,用于评估中文语言理解的细微之处,涵盖了与实际应用相关的各种语言任务。
- 分析 38: CLUE的任务设计旨在考察模型在不同层次的中文语言理解能力,包括词汇、语法、语义和篇章理解。
- 创建者和评估指标
- CLUE是一个开放的、社区驱动的项目。
- 它由一个NLP研究团队创建。
- 临床语言理解评估(CLUE)基准包含六项任务,用于测试在医疗保健领域的实际应用。
- 评估指标因任务而异,包括分类任务的准确率。
- 分析 39: CLUE的社区驱动性质以及临床CLUE等专门版本的开发突显了为满足特定语言和领域需求而定制基准的重要性。
- 分析 40: CLUE的评估指标设计旨在全面衡量模型在不同中文语言理解任务中的表现,从而为模型开发者提供有针对性的反馈。
- 不同模型的性能及原因
- GLM-130B在多个CLUE任务中表现出色。
- ERNIE和其他预训练的中文模型也表现良好。
- CLUE的性能反映了模型理解和处理中文的能力。
- 通用模型通常在临床CLUE任务上优于生物医学模型。
- 分析 41: 不同模型在CLUE上的表现表明中文语言理解取得了进展,某些模型在特定任务中表现出色。通用模型有时在临床任务中优于专门的生物医学模型,这引发了人们对当前生物医学微调方法有效性的质疑。
- 分析 42: 模型在CLUE上的性能差异可能与它们在训练过程中接触到的中文语料库的规模和质量有关,以及它们处理不同类型中文语言理解任务的能力有关。
- 评估范围和任务
探索AI模型比较评估方法
- “角斗场”(Arena)
- 工作原理和用户参与
- 像Chatbot Arena这样的Arena平台允许用户并排比较两个匿名AI聊天机器人。
- 用户通过提问与聊天机器人互动,然后投票选出更好的回复。
- 该平台使用Elo评分系统根据用户投票对模型进行排名。
- 用户可以进行多轮对话来评估模型的连贯性。
- 像Search Arena这样的新平台根据用户对真实用户查询的偏好评估搜索增强的LLM系统。
- Agent Arena允许用户根据任务、LLM提供商、框架和工具比较和评估代理工作流程。
- Open WebUI内置了一个评估功能,允许团队对模型响应进行评分,并在个性化排行榜上跟踪性能。
- 分析 43: Arena式评估利用用户的集体智慧来提供更真实的AI模型性能评估,尤其是在主观质量(如帮助性和对话能力)方面。
- 分析 44: Arena评估的工作原理类似于盲测,通过匿名比较不同模型的响应,消除了用户对特定模型先入为主的偏见,从而更客观地反映了模型的实际性能。
- 评估指标、优点和缺点
- 评估指标主要是基于成对比较的Elo评分。
- 优点包括难以轻易作弊和捕捉聊天机器人“好”的细微之处。
- 基于真实用户互动提供动态和持续的评估。
- 提供用户对不同模型偏好的见解。
- 缺点包括人类偏好的主观性和潜在的偏见。
- 可能与涉及长输入上下文或复杂推理的任务的性能相关性不高。
- 可能受到某些LLM的用户讨好行为的影响。
- 分析 45: 虽然Arena评估提供了关于用户偏好的宝贵见解,但其对人类判断的依赖引入了主观性和潜在的偏见。它们也可能无法完全捕捉更复杂或专门任务的性能。
- 分析 46: Arena评估的优势在于能够快速收集大量用户反馈,并利用Elo评分系统进行动态排名,但其缺点在于结果可能受到参与用户群体的偏好和使用场景的限制。
- 工作原理和用户参与
- 基于排行榜的评估
- 排行榜的特点和示例
- LLM排行榜根据模型在各种任务和基准上的性能对其进行排名。
- 示例包括Open LLM排行榜、Chatbot Arena排行榜、MTEB排行榜和特定领域的排行榜。
- 排行榜使用各种评估指标,如准确率、F1分数、困惑度、BLEU和ROUGE。
- 一些排行榜包含人类偏好评估,如Chatbot Arena。
- 排行榜有助于跟踪进展、比较模型并识别优势和劣势。
- 分析 47: 排行榜提供了一个有价值的AI模型在标准化基准上的性能概览,方便进行比较和跟踪该领域的进展。包含多样化的基准和指标可以对模型能力进行多方面的评估。
- 分析 48: 排行榜通过提供一个集中化的平台,展示了各种AI模型在不同任务上的性能,从而简化了模型选择的过程,并促进了社区对AI进展的理解。
- 适用性和局限性
- 适用于模型选择、识别改进领域和跟踪随时间推移的进展。
- 局限性包括可能过度拟合基准、数据污染以及对特定任务的狭隘关注。
- 可能无法完全反映真实世界的性能或用户体验。
- 可能很脆弱,对评估设置的微小变化很敏感。
- 可能无法充分涵盖所有相关能力或伦理考量。
- 分析 49: 虽然排行榜对于高层次的比较很有用,但它们在真实世界适用性、过度拟合的可能性以及对所有相关方面的覆盖方面的局限性,使得在解释它们时需要采取谨慎的态度。它们应与针对特定用例的评估相结合。
- 分析 50: 排行榜的局限性在于它们可能无法捕捉到模型在特定应用场景中的实际表现,而且由于模型开发者可能会针对排行榜进行优化,因此排行榜上的高分并不一定意味着模型在所有任务上都表现出色。
- 其他比较评估方法
- 成对比较法
- 涉及直接比较两个模型或输出,以确定哪个更好,基于特定标准。
- 可以使用LLM作为裁判来自动化评估过程。
- 适用于比较模型、提示或配置。
- 对于主观评估可能更可靠。
- 基于LLM的成对评估比人工评估更快更便宜。
- 分析 51: 成对比较提供了一种直接评估AI模型相对优势的方法,尤其是在主观质量方面。使用LLM作为裁判可以自动化此过程,使其更具可扩展性和成本效益。
- 分析 52: 成对比较法通过直接比较两个模型的输出,能够更清晰地揭示它们在特定方面的优劣,这对于优化模型和选择最适合特定任务的模型非常有帮助。
- 人工评估
- 涉及人工评估员根据预定义的标准评估AI输出。
- 被认为是主观和细致评估的黄金标准。
- 可以评估连贯性、相关性、事实正确性和伦理考虑等质量。
- 挑战包括成本高、耗时以及主观性和偏见的可能性。
- 通常与自动化指标结合使用以进行全面评估。
- 分析 53: 人工评估对于捕捉AI性能的定性方面并确保与人类价值观和期望保持一致仍然至关重要,尤其是在自动化指标不足的领域。然而,其资源密集型特性需要探索结合人工和自动化方法的混合方法。
- 分析 54: 人工评估的价值在于其能够提供对模型输出质量、相关性和适用性的深入理解,但其缺点是难以规模化,并且可能受到评估者个人偏见的影响。
- 成对比较法
- 排行榜的特点和示例
结论:AI能力评估的趋势和未来方向
该领域正朝着更全面、更细致的评估方法发展,这些方法超越了简单的准确性指标。越来越关注评估推理、泛化和伦理考虑。社区驱动的评估平台和使用LLM作为裁判的方法正在兴起。随着AI能力的进步,需要保持挑战性的基准。将评估方法与特定的用例和实际应用相结合非常重要。未来的方向可能涉及更动态和自适应的基准,以及改进人机协作评估的方法。
1. 表:关键AI能力评估基准概述
基准名称
|
主要评估范围 | 题型 | 创建者 | 主要关注点 |
MMLU | 一般知识 | 多项选择 | Dan Hendrycks等人 | 知识广度 |
MATH | 数学推理 | 自由回答 | Dan Hendrycks等人 | 推理深度 |
AIME | 高级数学 | 自由回答 | 美国数学协会 | 复杂问题解决 |
GSM8K | 小学数学 | 文字题 | OpenAI和Surge AI | 多步推理 |
PIQA | 物理常识 | 多项选择 | Yonatan Bisk等人 | 物理交互理解 |
ARC | 科学推理/抽象推理 | 多项选择/视觉谜题 | 艾伦人工智能研究所/François Chollet | 推理能力/技能习得效率 |
CLUE | 中文语言理解 | 分类/阅读理解等 | CLUE团队 | 语言理解的广度和深度 |
2. 表:顶级LLM在关键基准上的性能比较
模型名称
|
MMLU (%) | MATH (%) | AIME (%) | GSM8K (%) | PIQA (%) | ARC (Challenge) (%) |
GPT-4 | 86.4 | – | – | 92 | – | 96.3 |
Claude 3.5 Sonnet | 79 | 80 | – | 97.72 | – | – |
Grok-3 | 92.7 | 93.3 | – | 90 | – | – |
Gemini Ultra | 83.7 | – | – | 94.4 | – | – |
o3 Mini | – | 87.3 | 86.5 | – | – | – |
DeepSeek R1 | – | – | 74 | – | – | – |
3. 表:AI模型比较评估方法比较
评估方法
|
工作原理 | 主要评估指标 | 优点 | 缺点 |
“角斗场”(Arena) | 用户匿名比较两个模型并投票 | Elo评分 | 难以作弊,捕捉细微差别,动态评估 | 主观性,可能存在偏见,不一定适用于复杂任务 |
基于排行榜的评估 | 根据模型在标准化基准上的性能进行排名 | 准确率、F1分数、困惑度等 | 易于比较,跟踪进展 | 可能过度拟合基准,数据污染,关注点狭隘 |
成对比较法 | 直接比较两个模型或输出 | 偏好选择 | 适用于主观评估,自动化潜力 | 需要比较多个对,可能存在偏见 |
人工评估 | 人工评估员根据预定义标准评估输出 | 连贯性、相关性、正确性等 | 捕捉细微差别,考虑伦理 | 成本高,耗时,可能存在主观性和偏见 |
4. 表:不同评估方法因测试重点不同而偏向特定模型:
评估方法 | 测试重点 | 优势模型 | 原因 |
MMLU | 广泛知识 | GPT-4等大型LLM | 大型模型因训练数据广泛,能覆盖多学科知识。 |
MATH | 数学推理 | 数学专项模型 | 微调后的模型在竞赛级数学任务中表现更佳。 |
AIME | 高级数学 | Gemini 2.0 Flash | 优化数学推理的模型在高难度任务中占优。 |
GSM8K | 基础数学 | Claude 3.5 Sonnet | 大多数大型模型能轻松解决,微调模型更高效。 |
PIQA | 物理常识 | Unicorn 11B | 具备常识训练的模型在日常场景中表现更好。 |
ARC | 科学推理 | 科学微调LLM | 科学数据训练的模型在科学问题中更准确。 |
CLUE | 中文理解 | ERNIE | 中文专用模型因数据优化而表现优异。 |
Chatbot Arena | 对话偏好 | Claude | 优化对话的模型在用户体验中排名靠前。 |