跳转到内容

人类的最后考试

维基百科,自由的百科全书

人类的最后考试(英語:Humanity's Last Exam,HLE)是针对语言模型的一个基准测试。它由2500个前沿学术难题组成,其所涉学科包罗万象,由人工智能安全研究所英语Center for AI SafetyScale AI联合创建。

创意

[编辑]

斯坦福大学人本人工智能研究院(HAI)的《 2025 年人工智能指数报告》指出,“人类的最后考试”是“更具挑战性的基准测试”之一,皆在应对此前流行的人工智能基准测试已达到“饱和”的情况。 [1]

“人类的最后考试”据称是机器学习研究者兼人工智能安全研究所英语Center for AI Safety主任 丹·亨德里克斯英语Dan Hendrycks 的创意。他表示,自己在与埃隆·马斯克交谈后受到启发,从而创建了该基准测试。埃隆·马斯克认为现有语言模型的基准测试过于简单。

丹·亨德里克斯英语Dan HendrycksScale AI 合作,编纂了此基准测试中的题目。 [2]这些题目由世界各地不同学术机构的专家提供,以群众外包的形式编写。 [3] [4]专家提交的题目首先将由领先的人工智能模型进行筛选;如果模型无法回答问题,或者在选择题上的表现比随机猜测更差,则继续由人类专家进行两轮审核,最终批准纳入基准测试数据集。

所出题目评分最高的研究者,可瓜分 50 万美元的奖金——评分排名前 50 位的问题,每题可获得 5000 美元奖金,在此之后的 500 个问题,每题可获得 500 美元奖金。

在初始版本发布后,其“社区反馈漏洞赏金计划”开放,以识别并删除数据集中的重大错误。 [4]

组成

[编辑]

基准测试由公开发布的 2500 道题组成。相关论文将所有题目分为以下几大类:数学(41%)、物理(9%)、生物/医学(11%)、人文/社会科学(9%)、计算机科学/人工智能(10%)、工程学(4%)、化学(7%)和其他(9%)。约 14% 的题目需要同时理解文本和图像的能力,即多模态学习。 有 24% 的题目是多项选择题;其余的是简答题、精确匹配题。此外还维护了一个不公开的测试集,防止基准测试过拟合[4]

例如这道题目: [2]

Hummingbirds within Apodiformes uniquely have a bilaterally paired oval bone, a sesamoid embedded in the caudolateral portion of the expanded, cruciate aponeurosis of insertion of m. depressor caudae. How many paired tendons are supported by this sesamoid bone? Answer with a number.

测试报告

[编辑]
各种模型在“人类的最后考试”上的表现
开发组织 模型 准确率(%)↑ 校准误差(%)↓
谷歌 DeepMind Gemini 2.5 Pro Preview (06-05) 21.64 72
OpenAI o3 (high) 20.32 34
Anthropic Claude Opus 4 (Thinking) 10.72 73
Meta AI Llama 4 Maverick 5.68 83
Mistral AI Mistral Medium 3 4.52 77
亚马逊云 Nova Pro 4.40 80
来源: Scale AI ,2025 年 6 月 5 日。
各种非多模态模型在纯文本测试集上的表现
开发组织 模型 准确率(%)↑ 校准误差(%)↓
DeepSeek DeepSeek-R1-0528 14.04 78
OpenAI o3-mini (high) 13.37 80
阿里云 Qwen3-235B-A22B 11.75 74
亚马逊云 Nova Micro 4.41 84
来源: Scale AI ,2025 年 6 月 3 日。

参考文献

[编辑]
  1. ^ Maslej, Nestor; Fattorini, Loredana; Perrault, Raymond; Gil, Yolanda; Parli, Vanessa; Kariuki, Njenga; Capstick, Emily; Reuel, Anka; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Niebles, Juan Carlos; Shoham, Yoav. The AI Index 2025 Annual Report (PDF) (报告). Institute for Human-Centered AI: 141–142. April 2025. 
  2. ^ 2.0 2.1 Roose, Kevin. When A.I. Passes This Test, Look Out. New York Times. 23 January 2025 [24 January 2025]. (原始内容存档于29 January 2025) (美国英语). 
  3. ^ Dastin, Jeffrey; Paul, Katie. AI experts ready 'Humanity's Last Exam' to stump powerful tech. Reuters. 16 September 2024 [24 January 2025]. (原始内容存档于8 April 2025). 
  4. ^ 4.0 4.1 4.2 Phan, Long; Gatti, Alice. Humanity's Last Exam. 2025. arXiv:2501.14249可免费查阅 [cs.LG]. 

外部链接

[编辑]