
发布日期:2025-04-23 09:27 点击次数:92
北京时辰4月17日凌晨,OpenAI的多模态推理大模子o3与o4-mini重磅上线,这一大模子堪称是OpenAI迄今最强、最智能的模子。
关连词,琢磨机构很快发现,o3东说念主工智能模子的斥方位和第三方基准测试成果存在显明互异,这激发了东说念主们对该公司透明度和模子测试实施的质疑。
OpenAI测试舞弊了?
前年12月,OpenAI在预发布o3时,就强调了该模子在搞定坚苦问题上的才智大幅擢升。其时OpenAI宣称,该模子不错回复FrontierMath(一组具有挑战性的数常识题)中朝上25%的问题。这个分数远远朝上了其竞争敌手——名轮番二的模子只可正确回复大致2%的FrontierMath问题。
OpenAI首席琢磨官Mark Chen其时在直播中暗示:
“今天,统共大模子家具(能搞定的FrontierMath问题的数目)的比例皆不到2%…咱们(在里面)看到,在积极的测试时辰筹商缔造中,咱们概况获取朝上25%的解题率。”
但第三方测试讲明,这个25%的数字很可能并不准确。
好意思东时辰上周五(4月18日),斥地“FrontierMath”的琢磨机构“Epoch AI”公布了“o3”的孤立基准测试成果。Epoch发现,o3的得分约为10%,远低于OpenAI宣称的最高得分25%。
虽然,这并不料味着OpenAI一定在撒谎。该公司前年12月发布的基准测试成果流露,其得分的下限与Epoch AI不雅察到的得分十分。Epoch AI还指出,黄金交易他们的测试缔造可能与OpenAI不同,即他们使用了FrontierMath的更新版块进行评估。
Epoch AI写说念:“咱们的成果与OpenAI之间的互异可能是由于OpenAI使用更弘大的里面框架进行评估,使用更多的测试时辰(筹商),或者因为这些成果启动在FrontierMath的不同子集上(FrontierMath -2024-11-26中的180个问题vs FrontierMath -2025-02-28-private中的290个问题)。”
凭证ARC Prize Foundation(一个测试过o3预发布版块的组织)在X上的一篇著述,公斥地布的o3模子和预发布版块“是一个不同的模子……针对聊天/家具使用进行了调优”,这阐发了Epoch AI的弘扬。
“统共崇拜发布的o3筹商层皆比咱们(之前基准测试)的版块小,”ARC Prize写说念,一般来说,筹商层越大,获取的基准测试分数也会越高。
基准测试争议已成野蛮问题
跟着AI模子供应商竞相专揽新模子霸占头条和市集份额,在东说念主工智能行业,基准测试“争议”正在成为一种常见表象,
比如最近,埃隆·马斯克的xAI被指控,其最新东说念主工智能模子Grok 3的基准测试图表具有误导性。
本月早些技艺,Meta的新一代开源大模子Llama 4也遭受了舞弊质疑,而Meta公司承认,其宣传的基准测试分数所基于的模子版块与提供给斥地者的版块不一致。