上海大模型“独角兽”的研究员,为何要“硬刚”大厂论文,还获得了一片叫好?
创始人
2025-12-03 16:46:22
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:上观新闻)

这几天,来自上海的大模型“独角兽”阶跃星辰的研究员杨磊,在国内外机器学习社区火了,他“硬刚”大厂一项“漏洞百出”的论文,引来数以10万计的“吃瓜群众”,更不乏行业大V为他站台。

AI初创公司,进入大语言模型赛道不过一年多的程序员,这样的背景,怎么也不像是“哪吒闹海”的主人公!可恰恰是一份简单而纯粹的,对科研较真的态度,让业界看到并认可了来自模速空间的实力。

资料图:阶跃星辰亮相2025世界人工智能大会

故事的开头,其实也挺寻常。上个月初,有着多模态“卷王”之称的阶跃星辰的研究员杨磊,被同事“种草”了一篇苹果团队发布的视觉推理基准论文。这篇论文发表在公开的论文预印本平台上,同时也被苹果投向了国际表征学习大会(ICLR 2026)——这可是AI和深度学习领域的顶级学术会议之一。

都被公认“卷王”了,可见平时节奏有多快。可这项研究吸引杨磊,并让他心甘情愿“加班”的,恰是它的核心,和自己近期的工作相关。苹果的论文,本意是展示其最新的AI研究进展。“外行看热闹”的话,可以理解为出了套“基准测试”——用一套统一的数据集,也就是考题,来比较不同的AI模型,看谁的表现更好。

“可以理解成,它让大模型去分析,数据集里哪个地方错了,很像考试中,老师给‘步骤分’。”杨磊告诉新民晚报记者,“此前,我们也开发了专门的标注工具,产生了一批数据,并有了预研模型,很希望通过第三方平台来验证成果。”

可熬了一个周末的通宵来做适配,杨磊的心情只能用俩字来形容:沮丧!

“模型跑出来的点数极其之低,远低于预期。”他说,苹果团队也给出了其测试开源模型以及主流模型的榜单,杨磊所用的经过适配的模型,几乎要排名垫底了。

哪里出问题了?排除了自身模型的问题后,杨磊仔细分析了论文里给出的代码,他被震惊了!照理说,这套“基准测试”的运行流程是,给个图、抛出问题、给出解答、解答里有步骤错误,模型需要准确找出这一步——也就是说,参加评测的必须是一个能输入图片的VLM(视觉—语言模型)。

可,论文的开源代码里,输送的是图片的路径地址,而没有把路径解析成图片内容——这就造成模型看不到图片,只能看到题目和错误之处。杨磊向论文作者反馈了这个“低级错误”,可得到的反馈却是:这是一段“伪代码”。

更令杨磊没有想到的是,在修复这处bug后,模型的点数更低了……

百思不得其解下,杨磊只能花费更多时间和精力,去分析到底哪儿出了问题。再看了前20道题中,自家模型答错的题后,结果大吃一惊——里面有6道题明确属于“参考答案”错误,从“参考答案”的错误风格来看,很可能是模型自动生成的“参考答案”加上质检严重不足,导致包含大量幻觉。杨磊初步估算了一下,“参考答案”错误率可能已经来到了30%。

“原本以为苹果是大厂,我们也比较信任。谁能想到自己花费了大量时间和精力,发现自己‘被坑了’,对方也很不负责。”杨磊如是说。

他在GitHub(记者注:全球最常用的代码托管与协作平台)上,向论文作者反馈,指出其中的错误。六天后,作者“姗姗来迟”,简单回复后,便将反馈的问题标记为“已解决”,可实际上发布的数据并没有任何改动。

由于论文也被投向了国际表征学习大会,大会的审稿意见中,没有任何一位审稿人发现“参考答案”的质量问题,也没人发现论文中的例子存在幻觉和错误。

杨磊写了一份详细的公开评论,提醒大会审稿人和社区:这个数据集质量堪忧、极易误导研究方向。“我在这里评论是为了防止有兴趣的研究人员重复我经历的相同循环——看到第一个错误检测任务时的兴奋,运行它后的震惊和失望,以及追踪底层GT问题后的沮丧——从而节省每个人的时间和精力。”他这样写道。

再后来,论文撤稿了。作者“礼貌”地告诉杨磊,会积极修复这些问题,就没有然后了。

“众所周知,这几年人工智能领域特别火。每两年,投向顶级会议的论文数量几乎翻番。AI的进步,会使更多粗制滥造的工作容易‘批量生产’;加之审稿人都是‘义务劳动’,这些更不容易被发现。”杨磊解释。

杨磊的这一举动,在国内外各大机器学习社区,都引发了共鸣。他说,希望通过分享自己这次曲折的经历,能让AI社区更和谐,也让大家意识到,不要盲目信任表面包装,哪怕是来自大厂。

原标题:《上海大模型“独角兽”的研究员,为何要“硬刚”大厂论文,还获得了一片叫好?》

栏目编辑:左妍

相关内容

Workiva第一季度财报...
当前WK(Workiva)投资评级为持有,暂不建议追涨买入。其一季...
2026-06-28 10:14:50
再提醒!明日北京机动车限行...
按照《北京市人民政府关于实施工作日高峰时段区域限行交通管理措施的通...
2026-06-28 10:13:23
2026年6月27日发布 ...
埃隆·马斯克纸面财富从1.4万亿美元的峰值缩水,缩水总额约相当于杰...
2026-06-28 10:12:00
伊朗战争为何未能重创比特币...
核心事件:地缘冲突并未按传统逻辑击溃加密风险资产,加密市场走势核心...
2026-06-28 10:11:15
麦当劳回归油炸苹果派 情怀...
麦当劳在2025年年初至今股价累计下跌10.42%的背景下,于6月...
2026-06-28 10:08:58
乘联分会崔东树:5月中国汽...
每经AI快讯,6月28日,乘联分会秘书长崔东树发文表示,2026年...
2026-06-28 10:08:06
从市集“烟火气”看文创产业...
(来源:经济日报)转自:经济日报近日,在北京举办的首届中国新文创市...
2026-06-28 10:07:02
12家券商同日官宣薪酬制度
格隆汇6月28日|券商薪酬制度改革正进入集中落地期。6月26日,中...
2026-06-28 10:06:14
美联社预测朱莉娅·莱洛将赢...
核心事件:朱莉娅·莱洛将在路易斯安那州共和党联邦参议员初选中胜出,...
2026-06-28 10:05:33

热门资讯

Workiva第一季度财报发布... 当前WK(Workiva)投资评级为持有,暂不建议追涨买入。其一季度财报表现优异,但当前EV/sal...
再提醒!明日北京机动车限行尾号... 按照《北京市人民政府关于实施工作日高峰时段区域限行交通管理措施的通告》,自2026年6月29日至20...
2026年6月27日发布 马斯... 埃隆·马斯克纸面财富从1.4万亿美元的峰值缩水,缩水总额约相当于杰夫·贝索斯总净资产的两倍,其剩余持...
伊朗战争为何未能重创比特币 真... 核心事件:地缘冲突并未按传统逻辑击溃加密风险资产,加密市场走势核心驱动因素为全球流动性而非空袭等地缘...
麦当劳回归油炸苹果派 情怀真能... 麦当劳在2025年年初至今股价累计下跌10.42%的背景下,于6月23日在全美指定门店限时回归上世纪...
乘联分会崔东树:5月中国汽车进... 每经AI快讯,6月28日,乘联分会秘书长崔东树发文表示,2026年5月进口车进口3.8万辆,下滑19...
从市集“烟火气”看文创产业发展... (来源:经济日报)转自:经济日报近日,在北京举办的首届中国新文创市集暨潮玩游园会成为展现我国文创产业...
12家券商同日官宣薪酬制度 格隆汇6月28日|券商薪酬制度改革正进入集中落地期。6月26日,中信证券、国泰海通、中信建投等12家...
美联社预测朱莉娅·莱洛将赢得路... 核心事件:朱莉娅·莱洛将在路易斯安那州共和党联邦参议员初选中胜出,该结果由美联社预测得出。译文内容由...
极光星通:在某任务中完成72小... 6月27日,极光星通宣布在某任务中完成72小时连续稳定建链。据了解,极光星通为星载激光通信终端产品供...