上海大模型“独角兽”的研究员,为何要“硬杠”一篇大厂论文,还获得了一片叫好?这几天,来自上海的大模型“独角兽”阶跃星辰的研究员杨磊,在国内外机器学习社区火了:他“硬杠”大厂一篇“漏洞百出”的论文,引来数以十万计的“吃瓜群众”,更不乏行业大V为他站台。
AI初创公司、进入大语言模型赛道不过一年多的程序员……这样的背景,怎么也不像是“哪吒闹海”的主人公!可恰恰是一份简单而纯粹、对科研较真的态度,让业界看到并认可了来自模速空间的实力。
反复测试 论文“坑”多
上个月初,有着多模态“卷王”之称的阶跃星辰研究员杨磊,被同事“种草”了一篇苹果团队发布的视觉推理基准论文。这篇论文发表在公开的论文预印本平台上,同时也被苹果投向了国际表征学习大会(ICLR 2026)——这可是AI和深度学习领域的顶级学术会议之一。
都被公认“卷王”了,可见平时节奏有多快。可这项研究吸引杨磊,并让他心甘情愿“加班”的,恰是它的核心,和自己近期的工作相关。这篇论文本意是展示其最新的AI研究进展。“外行看热闹”的话,可以理解为出了套“基准测试”——用一套统一的数据集,类似于考题,来比较不同的AI模型,看谁的表现更好。
“可以这样理解,它让大模型去分析数据集里哪个地方错了,很像考试中老师给‘步骤分’。”杨磊告诉记者,“此前,我们也开发了专门的标注工具,产生了一批数据,并有了预研模型,很希望通过第三方平台来验证成果。”
可熬了一个周末的通宵来做适配,杨磊的心情只能用两个字来形容:沮丧!
“模型跑出来的点数极其之低,远低于预期。”他说,苹果团队也给出了其测试开源模型以及主流模型的榜单,杨磊所用的经过适配的模型,几乎要排名垫底了。
哪里出问题了?排除了自身模型的问题后,杨磊仔细分析了论文里给出的代码,他被震惊了!照理说,这套“基准测试”的运行流程是,给个图、抛出问题、给出解答、解答里有步骤错误,模型需要准确找出这一步——也就是说,参加评测的必须是一个能输入图片的VLM(视觉—语言模型)。
可论文的开源代码里,输送的是图片的路径地址,而没有把路径解析成图片内容。这就会造成模型看不到图片,只能看到题目和错误之处。杨磊向论文作者反馈了这个“低级错误”,可得到的反馈却是:这是一段“伪代码”。
更令杨磊没有想到的是,在修复这处bug后,模型的点数更低了……
百思不得其解下,杨磊只能花费更多时间和精力,去分析到底哪儿出了问题。再看了前20道题中自家模型答错了的题后,结果大吃一惊——里面有6道题明确属于“参考答案”错误,从“参考答案”的错误风格来看,很可能是模型自动生成的“参考答案”加上质检严重不足,导致包含大量“幻觉”。杨磊初步估算了一下,“参考答案”错误率可能已经达到了30%。
“原本以为苹果是大厂,我们也比较信任。谁能想到自己花费了大量时间和精力,发现自己‘被坑了’,对方也很不负责。”杨磊如是说。
发布评论 对方撤稿
他在GitHub(全球最常用的代码托管与协作平台)上,向论文作者反馈,指出其中的错误。6天后,作者“姗姗来迟”,简单回复后,便关闭了“讨论框”——这一举动意味着,问题被解决,可实际上并没有。
由于论文也被投向了国际表征学习大会,大会的审稿意见中,没有任何一位审稿人发现“参考答案”的质量问题,也没人发现论文中的例子存在幻觉和错误。
杨磊写了一份详细的公开评论,提醒大会审稿人和社区:这个数据集质量堪忧、极易误导研究方向。“我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。”他这样写道。
再后来,论文撤稿了。作者“礼貌”地告诉杨磊,会积极修复这些问题,就没有然后了。
“众所周知,这几年人工智能领域特别火。每两年,投向顶级会议的论文数量几乎翻番。AI的进步,会使更多粗制滥造的工作容易‘批量生产’;加之审稿人都是‘义务劳动’,这些更不容易被发现。”杨磊解释。
杨磊的这一举动,在国内外各大机器学习社区,都引发了共鸣。他说,希望通过分享自己这次曲折的经历,能让AI社区更和谐,也让大家意识到,不要盲目信任表面包装,哪怕是来自大厂。
本报记者 郜阳