人类的最后考试

人类的最后考试（英語：Humanity's Last Exam，HLE）是针对语言模型的一个基准测试。它由2500个前沿学术难题组成，其所涉学科包罗万象，由人工智能安全研究所（英语：Center for AI Safety）和Scale AI联合创建。

创意

斯坦福大学人本人工智能研究院(HAI)的《 2025 年人工智能指数报告》指出，“人类的最后考试”是“更具挑战性的基准测试”之一，皆在应对此前流行的人工智能基准测试已达到“饱和”的情况。 ^[1]

“人类的最后考试”据称是机器学习研究者兼人工智能安全研究所（英语：Center for AI Safety）主任丹·亨德里克斯（英语：Dan Hendrycks）的创意。他表示，自己在与埃隆·马斯克交谈后受到启发，从而创建了该基准测试。埃隆·马斯克认为现有语言模型的基准测试过于简单。

丹·亨德里克斯（英语：Dan Hendrycks）与 Scale AI 合作，编纂了此基准测试中的题目。 ^[2]这些题目由世界各地不同学术机构的专家提供，以群众外包的形式编写。 ^[3] ^[4]专家提交的题目首先将由领先的人工智能模型进行筛选；如果模型无法回答问题，或者在选择题上的表现比随机猜测更差，则继续由人类专家进行两轮审核，最终批准纳入基准测试数据集。

所出题目评分最高的研究者，可瓜分 50 万美元的奖金——评分排名前 50 位的问题，每题可获得 5000 美元奖金，在此之后的 500 个问题，每题可获得 500 美元奖金。

在初始版本发布后，其“社区反馈漏洞赏金计划”开放，以识别并删除数据集中的重大错误。 ^[4]

组成

该基准测试由公开发布的 2500 道题组成。相关论文将所有题目分为以下几大类：数学（41%）、物理（9%）、生物/医学（11%）、人文/社会科学（9%）、计算机科学/人工智能（10%）、工程学（4%）、化学（7%）和其他（9%）。约 14% 的题目需要同时理解文本和图像的能力，即多模态学习。有 24% 的题目是多项选择题；其余的是简答题、精确匹配题。此外还维护了一个不公开的测试集，防止基准测试过拟合。 ^[4]

例如这道题目： ^[2]

Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.

测试报告

各种模型在“人类的最后考试”上的表现
开发组织	模型	准确率（%）↑	校准误差（%）↓
谷歌 DeepMind	Gemini 2.5 Pro Preview (06-05)	21.64	72
OpenAI	o3 (high)	20.32	34
Anthropic	Claude Opus 4 (Thinking)	10.72	73
Meta AI	Llama 4 Maverick	5.68	83
Mistral AI	Mistral Medium 3	4.52	77
亚马逊云	Nova Pro	4.40	80

各种非多模态模型在纯文本测试集上的表现
开发组织	模型	准确率（%）↑	校准误差（%）↓
DeepSeek	DeepSeek-R1-0528	14.04	78
OpenAI	o3-mini (high)	13.37	80
阿里云	Qwen3-235B-A22B	11.75	74
亚马逊云	Nova Micro	4.41	84

参考文献

^ Maslej, Nestor; Fattorini, Loredana; Perrault, Raymond; Gil, Yolanda; Parli, Vanessa; Kariuki, Njenga; Capstick, Emily; Reuel, Anka; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Niebles, Juan Carlos; Shoham, Yoav. The AI Index 2025 Annual Report (PDF) (报告). Institute for Human-Centered AI: 141–142. April 2025.
^ ^2.0 ^2.1 Roose, Kevin. When A.I. Passes This Test, Look Out. New York Times. 23 January 2025 [24 January 2025]. （原始内容存档于29 January 2025）（美国英语）.
^ Dastin, Jeffrey; Paul, Katie. AI experts ready 'Humanity's Last Exam' to stump powerful tech. Reuters. 16 September 2024 [24 January 2025]. （原始内容存档于8 April 2025）.
^ ^4.0 ^4.1 ^4.2 Phan, Long; Gatti, Alice. Humanity's Last Exam. 2025. arXiv:2501.14249  [cs.LG].

外部链接

Humanity's Last Exam at the Center for AI Safety（英语：Center for AI Safety）.
Humanity's Last Exam at Scale AI.

[1] Maslej, Nestor; Fattorini, Loredana; Perrault, Raymond; Gil, Yolanda; Parli, Vanessa; Kariuki, Njenga; Capstick, Emily; Reuel, Anka; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Niebles, Juan Carlos; Shoham, Yoav. The AI Index 2025 Annual Report (PDF) (报告). Institute for Human-Centered AI: 141–142. April 2025.

[nytimes-2] 2.0 ^2.1 Roose, Kevin. When A.I. Passes This Test, Look Out. New York Times. 23 January 2025 [24 January 2025]. （原始内容存档于29 January 2025）（美国英语）.

[reuters-3] Dastin, Jeffrey; Paul, Katie. AI experts ready 'Humanity's Last Exam' to stump powerful tech. Reuters. 16 September 2024 [24 January 2025]. （原始内容存档于8 April 2025）.

[arxiv-4] 4.0 ^4.1 ^4.2 Phan, Long; Gatti, Alice. Humanity's Last Exam. 2025. arXiv:2501.14249  [cs.LG].

[1]

[2]

[3]

[4]