大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题
创始人
2026-01-19 13:43:29
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:机器之心Pro)

从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 “听觉” 后,它的智商下降了。

即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为“模态推理鸿沟”(Modality Reasoning Gap)

这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 “天花板”:

为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调,而是通过对齐 “思维轨迹”,成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。

核心痛点:为什么模型 “听” 得越多,“想” 得越偏?

目前的语音大模型(Speech LLM)通常采用 “语音编码器 + 适配器 + LLM” 的三段式架构。理论上,这应该能让语音输入无缝借用 LLM 强大的推理大脑。但现实是:引入语音模态后,推理能力出现了断崖式下跌

此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷:

1. 输入端强行对齐(Input Fusion):

试图让语音特征在输入层就长得和文本 Embedding 一样。但语音天然包含语气、停顿等富语言信息,与紧凑的文本本质不同。仅依靠输入对齐这种表面功夫,无法解决深层的表征漂移(Representation Drift)—— 随着 Transformer 层数加深,语音激发的隐藏状态(Hidden States)会逐渐偏离文本的思考轨迹(即相同语义纯文本输入时,文本激发的隐藏状态),导致 “想岔了”。

2. 输出端死记硬背(SFT / 蒸馏):

这是最主流的做法,即通过监督微调(SFT)利用静态的 “语音 - 文本” 数据对进行训练,或者通过知识蒸馏(Distillation)让文本分支作为 “老师” 来指导语音分支这个 “学生”。这些本质上都属于 Off-policy(离线策略),试图强行让语音分支去模仿文本的 Token 输出分布。但这有两个问题:

TARS 的核心洞察在于: 既然死记硬背行不通,能不能用强化学习(RL),让模型自己在 “思考过程” 中去动态对齐文本的轨迹,而不是对齐具体的字?

TARS:用强化学习重塑语音推理轨迹

TARS 是一个基于On-policy RL(具体采用 GRPO)的对齐框架。它巧妙地利用模型自身的文本分支作为 “动态导师”,通过三个关键创新,把语音分支的 “脑回路” 掰回来。

创新一:表征对齐(Representation Alignment)

既然 Gap 和 “表征漂移” 相关,TARS 选择直接从模型内部开刀。

创新二:行为对齐(Behavior Alignment)

为了避免 SFT 的死板,TARS 在输出端引入了更灵活的对齐标准。

创新三:非对称奖励与模态归一化

在 RL 训练设计上,TARS 针对模态差异做了对应优化:

1.非对称奖励(Asymmetric Reward): 文本分支只拿基础奖励(保住基本盘),语音分支额外拿对齐奖励(拼命追赶文本)。

2.模态特定归一化(Modality-Specific Normalization): 这一点至关重要。由于语音推理更难,往往得分较低,如果混合归一化,语音分支会一直收到负梯度。TARS 将两者分开归一化,让语音分支 “自己跟自己比”,保证了持续的优化梯度 —— 即使在所有样本任务准确率都为 0 的极端困难情况下,对齐奖励依然能指导模型进步。

实验结果:推理能力 100% 复原

团队在UnifiedQA数据集上训练,并在MMSUOBQA两个高难度语音推理榜单上进行了验证。实验基于 Qwen2.5-Omni 和 Phi-4-MM 架构。

核心战绩:MRR 突破 100%

TARS 不是在拆东墙补西墙!

实验发现,TARS 的对齐并不是 “拆东墙补西墙”。在使用 TARS 训练后,模型的文本准确率也同步提升(Qwen: +2.39%, Phi: +5.43%)。这证明语音模态学习到的知识,能够同时增强文本的推理能力。

总结与展望

TARS 的提出标志着语音大模型研究的一个转折点:

1.范式转变: 证明了On-policy RL在解决模态对齐问题上优于传统的 Off-policy(SFT / 蒸馏)方法。

2.轨迹对齐: 提出的 “表征(过程)+ 行为(结果)” 对齐策略,有效消除模态推理鸿沟。

TARS 证明了语音大模型完全可以拥有和纯文本模型同等的 “智商”。对于致力于打造全能型 Omni 模型的研究者而言,TARS 提供了一条通往高智商语音交互的可行路径。

相关内容

恒瑞医药股价连续4天下跌累...
1月19日,恒瑞医药跌1.32%,截至发稿,报61.12元/股,成...
2026-01-19 15:09:39
深高速涨0.80%,成交额...
1月19日,深高速涨0.80%,成交额3419.81万元,换手率0...
2026-01-19 15:09:34
创业板增强ETF富国(15...
1月19日,富国创业板增强策略ETF(159676)收盘跌0.47...
2026-01-19 15:09:30
中证500价值ETF(56...
1月19日,500价值(562330)收盘涨1.35%,成交额21...
2026-01-19 15:09:25
软件ETF易方达(5629...
1月19日,易方达中证软件服务ETF(562930)收盘跌2.31...
2026-01-19 15:09:21
证券ETF东财(15969...
1月19日,证券ETF东财(159692)收盘跌0.53%,成交额...
2026-01-19 15:09:15
港股通医疗ETF富国(15...
1月19日,富国恒生港股通创新药及医疗保健ETF(159506)收...
2026-01-19 15:09:10
半导体设备ETF(1595...
1月19日,国泰中证半导体材料设备主题ETF(159516)收盘跌...
2026-01-19 15:09:06
生物医药ETF基金(159...
1月19日,华安国证生物医药ETF(159508)收盘跌1.17%...
2026-01-19 15:09:01

热门资讯

恒瑞医药股价连续4天下跌累计跌... 1月19日,恒瑞医药跌1.32%,截至发稿,报61.12元/股,成交29.10亿元,换手率0.74%...
深高速涨0.80%,成交额34... 1月19日,深高速涨0.80%,成交额3419.81万元,换手率0.23%,总市值222.57亿元。...
创业板增强ETF富国(1596... 1月19日,富国创业板增强策略ETF(159676)收盘跌0.47%,成交额741.97万元。创业板...
中证500价值ETF(5623... 1月19日,500价值(562330)收盘涨1.35%,成交额212.43万元。中证500价值ETF...
软件ETF易方达(562930... 1月19日,易方达中证软件服务ETF(562930)收盘跌2.31%,成交额5694.89万元。软件...
证券ETF东财(159692)... 1月19日,证券ETF东财(159692)收盘跌0.53%,成交额5735.26万元。证券ETF东财...
港股通医疗ETF富国(1595... 1月19日,富国恒生港股通创新药及医疗保健ETF(159506)收盘跌2.95%,成交额2.75亿元...
半导体设备ETF(159516... 1月19日,国泰中证半导体材料设备主题ETF(159516)收盘跌0.51%,成交额28.62亿元。...
生物医药ETF基金(15950... 1月19日,华安国证生物医药ETF(159508)收盘跌1.17%,成交额216.15万元。生物医药...
中证500增强ETF汇添富(5... 1月19日,汇添富中证500增强策略ETF(560950)收盘涨0.76%,成交额147.19万元。...