上海“独角兽”研究员“硬杠”苹果团队论文_财经一览

上海“独角兽”研究员“硬杠”苹果团队论文

创始人

2025-12-03 14:50:09

0次

上海大模型“独角兽”的研究员，为何要“硬杠”一篇大厂论文，还获得了一片叫好？这几天，来自上海的大模型“独角兽”阶跃星辰的研究员杨磊，在国内外机器学习社区火了：他“硬杠”大厂一篇“漏洞百出”的论文，引来数以十万计的“吃瓜群众”，更不乏行业大V为他站台。

AI初创公司、进入大语言模型赛道不过一年多的程序员……这样的背景，怎么也不像是“哪吒闹海”的主人公！可恰恰是一份简单而纯粹、对科研较真的态度，让业界看到并认可了来自模速空间的实力。

反复测试论文“坑”多

上个月初，有着多模态“卷王”之称的阶跃星辰研究员杨磊，被同事“种草”了一篇苹果团队发布的视觉推理基准论文。这篇论文发表在公开的论文预印本平台上，同时也被苹果投向了国际表征学习大会（ICLR 2026）——这可是AI和深度学习领域的顶级学术会议之一。

都被公认“卷王”了，可见平时节奏有多快。可这项研究吸引杨磊，并让他心甘情愿“加班”的，恰是它的核心，和自己近期的工作相关。这篇论文本意是展示其最新的AI研究进展。“外行看热闹”的话，可以理解为出了套“基准测试”——用一套统一的数据集，类似于考题，来比较不同的AI模型，看谁的表现更好。

“可以这样理解，它让大模型去分析数据集里哪个地方错了，很像考试中老师给‘步骤分’。”杨磊告诉记者，“此前，我们也开发了专门的标注工具，产生了一批数据，并有了预研模型，很希望通过第三方平台来验证成果。”

可熬了一个周末的通宵来做适配，杨磊的心情只能用两个字来形容：沮丧！

“模型跑出来的点数极其之低，远低于预期。”他说，苹果团队也给出了其测试开源模型以及主流模型的榜单，杨磊所用的经过适配的模型，几乎要排名垫底了。

哪里出问题了？排除了自身模型的问题后，杨磊仔细分析了论文里给出的代码，他被震惊了！照理说，这套“基准测试”的运行流程是，给个图、抛出问题、给出解答、解答里有步骤错误，模型需要准确找出这一步——也就是说，参加评测的必须是一个能输入图片的VLM（视觉—语言模型）。

可论文的开源代码里，输送的是图片的路径地址，而没有把路径解析成图片内容。这就会造成模型看不到图片，只能看到题目和错误之处。杨磊向论文作者反馈了这个“低级错误”，可得到的反馈却是：这是一段“伪代码”。

更令杨磊没有想到的是，在修复这处bug后，模型的点数更低了……

百思不得其解下，杨磊只能花费更多时间和精力，去分析到底哪儿出了问题。再看了前20道题中自家模型答错了的题后，结果大吃一惊——里面有6道题明确属于“参考答案”错误，从“参考答案”的错误风格来看，很可能是模型自动生成的“参考答案”加上质检严重不足，导致包含大量“幻觉”。杨磊初步估算了一下，“参考答案”错误率可能已经达到了30%。

“原本以为苹果是大厂，我们也比较信任。谁能想到自己花费了大量时间和精力，发现自己‘被坑了’，对方也很不负责。”杨磊如是说。

发布评论对方撤稿

他在GitHub（全球最常用的代码托管与协作平台）上，向论文作者反馈，指出其中的错误。6天后，作者“姗姗来迟”，简单回复后，便关闭了“讨论框”——这一举动意味着，问题被解决，可实际上并没有。

由于论文也被投向了国际表征学习大会，大会的审稿意见中，没有任何一位审稿人发现“参考答案”的质量问题，也没人发现论文中的例子存在幻觉和错误。

杨磊写了一份详细的公开评论，提醒大会审稿人和社区：这个数据集质量堪忧、极易误导研究方向。“我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋，运行它后的震惊和失望，以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。”他这样写道。

再后来，论文撤稿了。作者“礼貌”地告诉杨磊，会积极修复这些问题，就没有然后了。

“众所周知，这几年人工智能领域特别火。每两年，投向顶级会议的论文数量几乎翻番。AI的进步，会使更多粗制滥造的工作容易‘批量生产’；加之审稿人都是‘义务劳动’，这些更不容易被发现。”杨磊解释。

杨磊的这一举动，在国内外各大机器学习社区，都引发了共鸣。他说，希望通过分享自己这次曲折的经历，能让AI社区更和谐，也让大家意识到，不要盲目信任表面包装，哪怕是来自大厂。

本报记者郜阳

上一篇：新华社：韩国把12月3日定为国民主权日

下一篇：朱啸虎快问快答：字节、腾讯、阿里的AI发展，你更看好谁？|未竟之约

上海“独角兽”研究员“硬杠”苹果团队论文

相关内容

热门资讯