释放双眼，带上耳机，听听看~！

本文介绍了通义千问2.0在多个权威评测中的表现，并详细介绍了CMMLU、MMLU、C-Eva、GSM8K等基准测评集，为读者提供了关于中文大型语言模型和多任务语言理解的相关信息。

感谢某学友中提供的’通义千问2.0’的测评雷达图，由此笔者开始了收集有关评测集的资料。评测集有点多，本文笔者以新闻搞通义千问2.0的评测雷达图上的信息为基线整理。附录上还有一些好东西，请看目录索引。笔者水平有限，敬请勘误

引言

在今年(2023)云栖大会上，阿里云正式发布千亿级参数大模型通义千问2.0。据现场介绍，在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4。以下是通义千问在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上的表现：

通义千问2.0在多个权威评测中的表现及基准测评集介绍

上图可以看出通义千问2.0的得分整体超越META的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小 (新闻来自新浪财经)。

那么问题来了，上图中Benchmark测评集分别是什么？侧重点在哪些方面？

基准测评集介绍

CMMLU

CMMLU是针对中国背景下的大型语言模型的知识和推理能力的评测，由MBZUAI、上海交通大学、微软亚洲研究院共同推出，包含67个主题，专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU是一个涵盖自然科学、社会科学、工程和人文学科等多个学科的综合性中国基准。是国内两大权威评测之一。

论文：CMMLU: Measuring massive multitask language understanding in Chinese
数据、代码与最新榜单：github.com/haonan-li/C…

通义千问2.0在多个权威评测中的表现及基准测评集介绍

MMLU

MMLU(Massive Multitask Language Understanding，大规模多任务语言理解)是一个由Hendrycks等人在《Measuring Massive Multitask Language Understanding》中提出的新基准，旨在通过仅在零样本和少样本设置下评估模型来衡量预训练。

官网: paperswithcode.com/dataset/mml…
论文： MEASURING MASSIVE MULTITASK LANGUAGE UNDERSTANDING
大模型排行榜: paperswithcode.com/sota/multi-…

C-Eva

C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集，覆盖52个学科，是目前权威的中文AI大模型评测榜单之一。是国内两大权威评测之一。C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。

通义千问2.0在多个权威评测中的表现及基准测评集介绍

论文：C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
官网：cevalbenchmark.com/
网址：github.com/hkust-nlp/c…
排行：浏览

GSM8K

GSM8K是由OpenAI发布的大模型数学推理能力评测基准。一个由8.5K高质量的语言多样化的小学数学单词问题组成的数据集（其中7.5K训练集，1K测试集）。这些问题都是由人类写手创造的。每个问题需要2-8步推理来求解，主要是使用基本的算术运算（+-/*)进行一连串的基本计算，以得出最终答案。

GSM8K是两大知名数学推理基准之一，该项测试在2021年10月份发布，至今仍然是非常困难的一种测试基准。

提出背景：像GPT-3这样的大型语言模型有许多令人印象深刻的技能，包括模仿许多写作风格的能力，以及广泛的事实知识。但GPT难以完成需要精确多步骤推理的任务，比如解决小学数学单词问题。为了匹配人类在复杂逻辑领域中的表现，OpenAI使用验证器在许多解决方案中选择了最好的GSM8K, 他们收集了新的GSM8K数据集来评估其方法，并发布该数据集以促进研究。

论文：Training Verifiers to Solve Math Word Problems
项目：github.com/openai/grad…
博客：openai.com/research/so…

Gaokao-Bench

GAOKAO-bench是一个以中国中考试题为数据集，评估大型语言模型的语言理解和逻辑推理能力的评估框架,收集了2010-2022年全国高考卷的题目, 包含1781道选择题、218道填空题和812道解答题。同时评测分为两部分，自动化评测的客观题部分和依赖于专家打分的主观题部分，这两部分结果构成了最终的分数。所有过程的数据和结果都是公开的。

官网：github.com/OpenLMLab/G…
论文：Evaluating the Performance of Large Language Models on GAOKAO Benchmark

AGIEval

微软发布的大模型基础能力评测基准，在2023年4月推出，主要评测大模型在人类认知和解决问题的一般能力，涵盖全球20种面向普通人类考生的官方、公共和高标准录取和资格考试，包含中英文数据。因此，该测试更加倾向于人类考试结果，涵盖了中英文。

论文：AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models
数据：github.com/microsoft/A…

MATH

MATH 数学领域的推理和解决问题能力测试, 是UC Berkeley提出的一个用于评估机器学习模型的数学问题解决能力的数据集。MATH与GSM8K类似，但是包含了12500道高中数学竞赛题，每道题都有详细的步骤化解法，可用于教模型生成答案推导和解释。MATH数据集目前对现有模型仍非常具挑战性。

MATH是两大知名数学推理基准之一。

项目地址：github.com/hendrycks/m…
论文：Measuring Mathematical Problem Solving With the MATH Dataset

BBH

BIG bench hard(BBH) 基准，通过选择大语言模型表现出比人类更差性能的具有挑战性的任务，专注于研究大语言模型目前无法解决的任务。BIG-bench Hard是BIG-bench的一个仅包含目前模型表现无法超过人类的任务子集。

BIG-bench 是一个协作基准，旨在从各个方面调查现有的大语言模型。它包括204项任务，涵盖了广泛的主题，包括语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等。通过缩放模型大小，大语言模型甚至可以在BIG-bench上65%的任务中，在少样本设置下的平均人类表现

论文：Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
github: github.com/suzgunmirac…

HumanEval

它用于测量从文档字符串合成程序的功能正确性。它由164个原始编程问题组成，评估语言理解、算法和简单数学，其中一些问题与简单的软件面试问题相当。

论文： arxiv.org/abs/2107.03…
github: github.com/openai/huma…

MBPP

该基准测试由大约1000个众包Python编程问题组成，旨在由入门级程序员解决，涵盖编程基础知识、标准库功能等。每个问题都由任务描述、代码解决方案和3个自动化测试用例组成。主要反映大模型的代码理解和生成任务能力。

论文：Program Synthesis with Large Language Models
github: github.com/…/mbpp

附录

榜单

UC伯克利主导的「LLM排位赛」

LMSYS Org是UC伯克利(University of California,Berkeley)的研究人员发起的一个大语言模型版排位赛！顾名思义，就是让一群大语言模型随机进行battle，并根据它们的Elo得分进行排名。

官网：lmsys.org/projects/
大语言模型的在线试用与评测：chat.lmsys.org/

该排位赛使用MT-bench作为聊天机器人评估基准。

创始人之一盛颖是之前爆火的、可以在单GPU上可以跑175B模型推理的系统FlexGen的一作，目前已获8k星，她是斯坦福大学计算机科学系的博士生。另外两位是Lianmin Zheng和Hao Zhang。

AlpacaEval

github: github.com/tatsu-lab/a…
榜单：Alpaca Eval Leaderboard

OpenCompass

官网：opencompass.org.cn
榜单：opencompass.org.cn/leaderboard…

MT-Bench

MT-Bench是一个经过精心设计的基准测试，包含80个高质量的多轮问题。8个主要的类别：写作、角色扮演、提取、推理、数学、编程、知识I（科学技术工程数学）和知识II（人文社科）。其中，每个类别有10个多轮问题，总共160个问题。

下图是LMSYS Org上的2023年榜单上的雷达图:

通义千问2.0在多个权威评测中的表现及基准测评集介绍

项目说明如下：

Writing – 写作
Humanities – 人类行业
Roleplay – 角色扮演
STEM – 理工科任务
Reasoning – 推理任务
Extraction – 提取（蒸馏）
Math – 数学任务
Coding – 代码任务

MathVista

MathVista由微软发布的全新多模态数学推理基准数据集，同时提供了一份涵盖 112 页的详细评测报告，专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型，如 GPT-4V，来说也是一项挑战，显示了这些模型在多模态数学问题解决方面的局限性。

论文：arxiv.org/abs/2310.02…
项目：mathvista.github.io/
HF数据集：huggingface.co/datasets/AI…
数据可视化：mathvista.github.io/#visualizat…
Leaderboard：mathvista.github.io/#leaderboar…

评测综述的论文：大型语言模型评估综述

论文：A Survey on Evaluation of Large Language Models

欢迎提供更多的

参考

(可能有遗漏，欢迎补充)

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

通义千问2.0在多个权威评测中的表现及基准测评集介绍

引言

基准测评集介绍

CMMLU

MMLU

C-Eva

GSM8K

Gaokao-Bench

AGIEval

MATH

BBH

HumanEval

MBPP

附录

榜单

UC伯克利主导的「LLM排位赛」

AlpacaEval

OpenCompass

MT-Bench

MathVista

评测综述的论文：大型语言模型评估综述

GitHub开源项目：从零开始学习提示工程，轻松上手AI工具

RAG应用流程及关键步骤详解

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

引言

基准测评集介绍

CMMLU

MMLU

C-Eva

GSM8K

Gaokao-Bench

AGIEval

MATH

BBH

HumanEval

MBPP

附录

榜单

UC伯克利主导的「LLM排位赛」

AlpacaEval

OpenCompass

MT-Bench

MathVista

评测综述的论文：大型语言模型评估综述

GitHub开源项目：从零开始学习提示工程，轻松上手AI工具

RAG应用流程及关键步骤详解

GPT原理与使用技巧

如何选择ChatGPT API方式？比较ChatGPT API和ChatGPT Unofficial ProxyAPI

Meta发布Llama 2开源大动作，AI领域再次掀起风暴

DALL ・ E 3：集成ChatGPT的新特点和生成效果