OpenAI最新模型打不动了?GPT-5.2因“降智”陷“差评潮”
创始人
2025-12-15 17:14:46
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:界面新闻)

OpenAI推出不到一周的最新旗舰模型没能等来“好评如潮”。

近日,OpenAI在十周年之际发布了GPT-5.2系列模型,官方数据显示其在GDPval等专业基准测试中超越人类专家,是迄今为止在“专业知识工作方面”表现最好的模型。

据OpenAI官方披露,GPT-5.2在多领域实现技术突破:GDPval测试中覆盖44个职业的任务表现70.9%优于顶尖专家,SWE-bench Pro编程测试获55.6%的SOTA成绩,还将幻觉率较GPT-5.1降低38%。该公司CEO山姆·奥特曼称其为“许久以来最大的升级”,并透露计划2026年1月解除应对谷歌竞争的“红色警报”。

但该模型上线后遭到大量用户吐槽,认为其从常识问答到情感交互,“智商不稳定”。

SimpleBench常识推理测试显示,GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7,甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对,而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单,但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言,“不值得从GPT-5.1升级”。

网友晒出的网友晒出GPT-5.2在SimpleBench上的成绩单。

一些编程爱好者则发现,GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”,蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”,竟收到“很高兴听到这个消息”的回复,安慰失宠孩童时则机械强调“生物都会停止运作”,缺乏此前版本的亲和力和自然表达。

此外,该版本在处理连续对话时不稳定,甚至在明确选择“高级思考模式”时也会返回低质量的自动响应,令用户不得不重新调整使用方式。

还有用户表示,GPT-5.2的安全策略实施过于严格,在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。

有观察人士指出,这轮差评潮背后存在几重因素。一方面,OpenAI推广时着重强调GPT-5.2的专业能力和基准测试成绩,但普通用户更关注日常对话、流畅性和创造性体验,两者的期望存在错位;另一方面,由于竞争加剧和内部发布节奏加快,有观点认为该版本可能发布过早,尚未充分优化在关键使用场景中的稳定性与一致性,因此用户的实际感受出现明显落差。

截至发稿,OpenAI尚未就这轮用户反馈作出公开回应,但公司在官方资料中表示,会持续改善用户体验、优化安全策略,并根据用户反馈推进后续版本的迭代。

当前,OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月,谷歌宣布Gemini月活跃用户已突破6.5 亿,较7月报告的4.5亿实现大幅增长,而OpenAI披露的周活跃用户数接近8亿。

为此,奥特曼曾发布“红色代码”警报,决定暂时搁置包括Sora视频生成器在内的长期研发项目,转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率,OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。

相关内容

前11个月社零增4%:以旧...
21世纪经济报道 记者周潇枭 见习记者张旭 北京报道12月15日,...
2025-12-15 18:58:19
任友群会见加拿大不列颠哥伦...
经济观察网 12月15日,据教育部网站消息,12月12日,教育部...
2025-12-15 18:58:15
在这部纪录片里,一起去海南...
2025年,海南自贸港全岛封关运作步入倒计时,这座被海风与阳光浸润...
2025-12-15 18:58:10
国务院食安办部署加强元旦、...
本文转自【央视新闻客户端】;记者今天了解到,国务院食安办部署加强元...
2025-12-15 18:58:05
果下科技(2655.HK)...
格隆汇12月15日|中国储能行业的可再生能源解决方案及产品提供商果...
2025-12-15 18:58:01
澎湃漫评|吃拿卡要是典型的...
吃拿卡要是典型的“微腐败”12月15日,司法部发布规范涉企行政执法...
2025-12-15 18:57:55
科技板块大跌,资金出逃!重...
  科技板块大跌。  今日(12月15日),市场主要股指震荡下跌,...
2025-12-15 18:48:24
中新集团(601512.S...
格隆汇12月15日丨中新集团(601512.SH)公布,公司拟作为...
2025-12-15 18:48:20
“情系草原•智汇北疆”内蒙...
转自:草原云12月12日,“情系草原•智汇北疆”内蒙古在京学子返乡...
2025-12-15 18:48:15

热门资讯

前11个月社零增4%:以旧换新... 21世纪经济报道 记者周潇枭 见习记者张旭 北京报道12月15日,国家统计局公布了11月经济数据。1...
任友群会见加拿大不列颠哥伦比亚... 经济观察网 12月15日,据教育部网站消息,12月12日,教育部副部长任友群在京会见了来访的加拿大...
在这部纪录片里,一起去海南环岛... 2025年,海南自贸港全岛封关运作步入倒计时,这座被海风与阳光浸润的海岛,正以开放包容的姿态,向世界...
国务院食安办部署加强元旦、春节... 本文转自【央视新闻客户端】;记者今天了解到,国务院食安办部署加强元旦、春节和全国两会期间食品安全工作...
果下科技(2655.HK)暗盘... 格隆汇12月15日|中国储能行业的可再生能源解决方案及产品提供商果下科技(2655.HK)明日挂牌,...
澎湃漫评|吃拿卡要是典型的“微... 吃拿卡要是典型的“微腐败”12月15日,司法部发布规范涉企行政执法专项行动第三批典型案例。在一起执法...
科技板块大跌,资金出逃!重要消...   科技板块大跌。  今日(12月15日),市场主要股指震荡下跌,沪指跌0.55%,深证成指跌1.1...
中新集团(601512.SH)... 格隆汇12月15日丨中新集团(601512.SH)公布,公司拟作为有限合伙人以自有资金参与投资苏州鼎...
“情系草原•智汇北疆”内蒙古在... 转自:草原云12月12日,“情系草原•智汇北疆”内蒙古在京学子返乡创业就业暨驻京人才工作座谈会在北京...
50余所高校齐聚上大,共同探讨... (来源:上观新闻)第五届上海高校研究生思想政治教育工作研讨会日前在上海大学举行。与会者共同探讨高校德...