上海大模型发力！超越Grok，阶跃星辰开源语音模型登顶权威评测榜单_财经一览

上海大模型发力！超越Grok，阶跃星辰开源语音模型登顶权威评测榜单

创始人

2026-01-15 16:43:19

0次

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：上观新闻）

新民晚报记者今天（1月15日）从上海大模型创业公司阶跃星辰获悉：全球知名权威大模型评测榜单Artificial Analysis Speech Reasoning更新，阶跃星辰原生音频推理模型Step-Audio-R1.1登顶榜首，以96.4%准确率，超越Grok、Gemini、GPT-Realtime等主流一线模型，刷新历史最好成绩。目前，阶跃星辰已将这款模型开源，开发者可以下载体验。

阶跃星辰原生音频推理模型Step-Audio-R1.1登顶Artificial Analysis Speech Reasoning榜首

据了解，该榜单是目前业界评估“原生语音模型”（Native Audio Models）最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力，主要考察维度包括准确率、首包延迟等。

根据榜单评测，在性能与速度的综合权衡上，Step-Audio-R1.1全面“碾压”同类语音模型。

2025年11月，阶跃星辰发布了全球首个开源原生音频推理模型Step-Audio-R1，可以在不增加额外时延的情况下，端到端理解语音内容，并能够“像人类一样听到对话即可思考”。这次发布的Step-Audio-R1.1模型，是Step-Audio-R1的升级版，兼顾更强实时对话和复杂语音推理能力。完整的实时语音API将在2月上线，目前开放的chat模式已搭载Step-Audio-R1.1核心，支持边想边说的流式推理。

和大语言模型同理，语音模型同样需要具备强大推理能力，才能提供更高阶智能、更自然交互。基于推理能力，Step-Audio-R1.1不仅能准确识别声音，还可以捕捉到声音背后的情绪和心理状态、言外之意，并能基于环境音推导对物理世界的理解。比如当听到最近爆火网络的“海豹舞”音频时，模型不仅能识别出韩语歌词，更判断出这是典型语言学习或发音练习的音频，而非自然对话。

一种行业共识是，语音是终端场景下最主流的交互方式。自2025年发力“AI+终端”战略，阶跃星辰相继发布了业内首个产品级的开源语音交互模型Step-Audio、端到端语音模型Step-Audio 2系列、音频编辑模型Step-Audio-EditX、全球首个开源原生音频推理模型Step Audio R1。

值得一提的是，在刚刚闭幕的2026年国际消费电子展上，吉利展示了搭载阶跃语音大模型的吉利银河M9海外版，凭借极具真人感的交互效果引发海外观众的热议。【延伸阅读：“活人感”智能座舱原来如此丝滑！阶跃星辰端到端语音模型海外“出圈”】吉利银河M9也是业内首个搭载端到端语音模型的量产车型。

原标题：《上海大模型发力！超越Grok，阶跃星辰开源语音模型登顶权威评测榜单》

栏目编辑：马丹题图来源：东方IC 图片来源：采访对象供图

来源：作者：新民晚报郜阳

上一篇：力劲科技(0558.HK)TPI镁合金半固态触变铸造工艺2.0方案亮相德国

下一篇：千问App全面接入阿里生态业务，AI迈入“办事时代”

上海大模型发力！超越Grok，阶跃星辰开源语音模型登顶权威评测榜单

相关内容

热门资讯