上海“独角兽”研究员“硬杠”苹果团队论文
创始人
2025-12-03 14:50:09
0

上海大模型“独角兽”的研究员,为何要“硬杠”一篇大厂论文,还获得了一片叫好?这几天,来自上海的大模型“独角兽”阶跃星辰的研究员杨磊,在国内外机器学习社区火了:他“硬杠”大厂一篇“漏洞百出”的论文,引来数以十万计的“吃瓜群众”,更不乏行业大V为他站台。

AI初创公司、进入大语言模型赛道不过一年多的程序员……这样的背景,怎么也不像是“哪吒闹海”的主人公!可恰恰是一份简单而纯粹、对科研较真的态度,让业界看到并认可了来自模速空间的实力。

反复测试 论文“坑”多

上个月初,有着多模态“卷王”之称的阶跃星辰研究员杨磊,被同事“种草”了一篇苹果团队发布的视觉推理基准论文。这篇论文发表在公开的论文预印本平台上,同时也被苹果投向了国际表征学习大会(ICLR 2026)——这可是AI和深度学习领域的顶级学术会议之一。

都被公认“卷王”了,可见平时节奏有多快。可这项研究吸引杨磊,并让他心甘情愿“加班”的,恰是它的核心,和自己近期的工作相关。这篇论文本意是展示其最新的AI研究进展。“外行看热闹”的话,可以理解为出了套“基准测试”——用一套统一的数据集,类似于考题,来比较不同的AI模型,看谁的表现更好。

“可以这样理解,它让大模型去分析数据集里哪个地方错了,很像考试中老师给‘步骤分’。”杨磊告诉记者,“此前,我们也开发了专门的标注工具,产生了一批数据,并有了预研模型,很希望通过第三方平台来验证成果。”

可熬了一个周末的通宵来做适配,杨磊的心情只能用两个字来形容:沮丧!

“模型跑出来的点数极其之低,远低于预期。”他说,苹果团队也给出了其测试开源模型以及主流模型的榜单,杨磊所用的经过适配的模型,几乎要排名垫底了。

哪里出问题了?排除了自身模型的问题后,杨磊仔细分析了论文里给出的代码,他被震惊了!照理说,这套“基准测试”的运行流程是,给个图、抛出问题、给出解答、解答里有步骤错误,模型需要准确找出这一步——也就是说,参加评测的必须是一个能输入图片的VLM(视觉—语言模型)。

可论文的开源代码里,输送的是图片的路径地址,而没有把路径解析成图片内容。这就会造成模型看不到图片,只能看到题目和错误之处。杨磊向论文作者反馈了这个“低级错误”,可得到的反馈却是:这是一段“伪代码”。

更令杨磊没有想到的是,在修复这处bug后,模型的点数更低了……

百思不得其解下,杨磊只能花费更多时间和精力,去分析到底哪儿出了问题。再看了前20道题中自家模型答错了的题后,结果大吃一惊——里面有6道题明确属于“参考答案”错误,从“参考答案”的错误风格来看,很可能是模型自动生成的“参考答案”加上质检严重不足,导致包含大量“幻觉”。杨磊初步估算了一下,“参考答案”错误率可能已经达到了30%。

“原本以为苹果是大厂,我们也比较信任。谁能想到自己花费了大量时间和精力,发现自己‘被坑了’,对方也很不负责。”杨磊如是说。

发布评论 对方撤稿

他在GitHub(全球最常用的代码托管与协作平台)上,向论文作者反馈,指出其中的错误。6天后,作者“姗姗来迟”,简单回复后,便关闭了“讨论框”——这一举动意味着,问题被解决,可实际上并没有。

由于论文也被投向了国际表征学习大会,大会的审稿意见中,没有任何一位审稿人发现“参考答案”的质量问题,也没人发现论文中的例子存在幻觉和错误。

杨磊写了一份详细的公开评论,提醒大会审稿人和社区:这个数据集质量堪忧、极易误导研究方向。“我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。”他这样写道。

再后来,论文撤稿了。作者“礼貌”地告诉杨磊,会积极修复这些问题,就没有然后了。

“众所周知,这几年人工智能领域特别火。每两年,投向顶级会议的论文数量几乎翻番。AI的进步,会使更多粗制滥造的工作容易‘批量生产’;加之审稿人都是‘义务劳动’,这些更不容易被发现。”杨磊解释。

杨磊的这一举动,在国内外各大机器学习社区,都引发了共鸣。他说,希望通过分享自己这次曲折的经历,能让AI社区更和谐,也让大家意识到,不要盲目信任表面包装,哪怕是来自大厂。

本报记者 郜阳

相关内容

欢乐家跌5.24%,成交额...
12月3日,欢乐家跌5.24%,成交额4.50亿元,换手率5.02...
2025-12-03 15:29:36
诚达药业跌5.82%,成交...
12月3日,诚达药业跌5.82%,成交额4.77亿元,换手率10....
2025-12-03 15:29:28
敷尔佳跌1.94%,成交额...
12月3日,敷尔佳跌1.94%,成交额1.15亿元,换手率5.48...
2025-12-03 15:29:21
富信科技跌2.02%,成交...
12月3日,富信科技跌2.02%,成交额6683.79万元,换手率...
2025-12-03 15:29:15
丛麟科技跌0.04%,成交...
12月3日,丛麟科技跌0.04%,成交额633.01万元,换手率0...
2025-12-03 15:29:04
呈和科技跌0.91%,成交...
12月3日,呈和科技跌0.91%,成交额4928.03万元,换手率...
2025-12-03 15:28:55
汇宇制药跌1.75%,成交...
12月3日,汇宇制药跌1.75%,成交额5503.99万元,换手率...
2025-12-03 15:28:49
民爆光电跌0.39%,成交...
12月3日,民爆光电跌0.39%,成交额1308.07万元,换手率...
2025-12-03 15:28:36
奕东电子跌2.87%,成交...
12月3日,奕东电子跌2.87%,成交额1.32亿元,换手率1.9...
2025-12-03 15:28:29

热门资讯

欢乐家跌5.24%,成交额4.... 12月3日,欢乐家跌5.24%,成交额4.50亿元,换手率5.02%,总市值101.19亿元。异动分...
诚达药业跌5.82%,成交额4... 12月3日,诚达药业跌5.82%,成交额4.77亿元,换手率10.31%,总市值66.08亿元。异动...
敷尔佳跌1.94%,成交额1.... 12月3日,敷尔佳跌1.94%,成交额1.15亿元,换手率5.48%,总市值141.73亿元。异动分...
富信科技跌2.02%,成交额6... 12月3日,富信科技跌2.02%,成交额6683.79万元,换手率1.90%,总市值35.12亿元。...
丛麟科技跌0.04%,成交额6... 12月3日,丛麟科技跌0.04%,成交额633.01万元,换手率0.60%,总市值32.84亿元。异...
呈和科技跌0.91%,成交额4... 12月3日,呈和科技跌0.91%,成交额4928.03万元,换手率0.67%,总市值73.61亿元。...
汇宇制药跌1.75%,成交额5... 12月3日,汇宇制药跌1.75%,成交额5503.99万元,换手率0.84%,总市值80.95亿元。...
民爆光电跌0.39%,成交额1... 12月3日,民爆光电跌0.39%,成交额1308.07万元,换手率1.08%,总市值42.54亿元。...
奕东电子跌2.87%,成交额1... 12月3日,奕东电子跌2.87%,成交额1.32亿元,换手率1.99%,总市值93.67亿元。异动分...
盛泰集团跌1.08%,成交额2... 12月3日,盛泰集团跌1.08%,成交额2120.38万元,换手率0.52%,总市值40.83亿元。...