11月24日,阿里云与新加坡国家人工智能计划(AISG)联合发布了一则重磅消息:新加坡最新的国家级大语言模型“海狮”(Sea-Lion v4),将不再沿用此前的美国技术路线,而是全面基于阿里的通义千问Qwen3-32B开源模型构建。
这是继硅谷大佬Chamath Palihapitiya宣布用Kimi取代OpenAI作为生产力工具,美国Vercel、Windsurf等编程平台接入智谱模型,爱彼迎CEO表示阿里Qwen比美国模型更好用后,中国开源模型在全球市场的最新成绩。而本次新加坡国家人工计划的认可也意味着在“主权AI”和“多语言适配”的赛道上,中国开源大模型已经具备了替代甚至超越硅谷巨头的能力。
2023年12月,新加坡启动了一项7000万新元(5200万美元)的计划,旨在建立多模态大型语言模型 (LLM)的研究和工程能力,其中包括开发 Sea-Lion(东南亚语言一体化网络)。
然而,这片拥有6亿人口、数字经济规模奔向万亿美元的市场,长期以来却是西方AI的“盲区”。
这种“盲区”首先体现在数据的极度匮乏上。在Sea-Lion诞生前,被广泛使用的Meta Llama 2等主流模型中,东南亚语言内容的占比仅为惊人的0.5%。
这种以英语为中心的训练逻辑,导致当时以Meta旗下开源模型Llama2训练的Sea-Lion几乎是个“东南亚文盲”。在早期的测试中,该模型将南美洲的委内瑞拉列为了东盟成员国。这种缺乏区域常识的“幻觉”,暴露了西方通用模型在本地化应用上的致命短板。
更让当地开发者头疼的是语言文化的隔阂。东南亚地区盛行“语码转换”,即在英语中夹杂方言,例如新加坡式英语(Singlish)或马来西亚式英语(Manglish)。面对这种复杂的混合语境,标准的美式AI模型往往束手无策,无法理解其中的细微差别和文化梗。
虽然Llama性能在开源模型中当时位列头部,但其“英语中心主义”的基因始终难以改变,在处理泰语、缅甸语等非拉丁语系文字时效率极低。
AISG逐渐意识到,使用硅谷的开源模型进行开发并不是最适合东南亚国家的解,他们必须寻找一个真正懂多语言、懂亚洲语境的底座。
而本次发布的v4版本,AISG最终将目光投向了中国,选用了阿里的Qwen3-32B作为新一代Sea-Lion的基座模型。
与西方模型不同,Qwen3的基础模型在预训练阶段就通过了36万亿个token的数据训练,覆盖了全球119种语言和方言。这种“原生多语言能力”让Qwen不仅“懂”印尼语、马来语,更从底层逻辑上理解这些语言的语法结构,大大降低了AISG后续训练的门槛。
为了解决东南亚语言独特的书写习惯问题,Qwen-Sea-Lion-v4摒弃了西方模型常用的“句子分词器”,转而采用了更先进的字节对编码(BPE)分词器。鉴于泰语、缅甸语等语言通常没有明显的词间空格,BPE技术能更精准地切分非拉丁语系的字符,不仅提高了翻译的准确度,还大幅提升了推理速度。
除了技术指标,商业落地的现实考量也是阿里胜出的关键因素。东南亚拥有大量中小企业,他们无力承担昂贵的H100 GPU集群。Qwen-Sea-Lion-v4经过优化,可以在配备32GB内存的消费级笔记本电脑上流畅运行。
这意味着,一个普通的印尼开发者,仅凭一台高配电脑就能在本地部署这个国家级模型。这种“工业级能力,民用级门槛”的特性,恰恰切中了该地区算力资源稀缺的痛点。
此次合作也并非简单的“单向技术输出”,而是一种深度的双向融合。根据协议,阿里提供了强大的通用推理底座,而AISG则贡献了其珍贵的、经过清洗的1000亿个东南亚语言token。这些数据完全去除了版权风险,且东南亚内容的浓度高达13%,是Llama2的26倍。
阿里通过“高级后训练”技术,将这些独特的区域知识注入Qwen,使其能精准捕捉当地的文化神韵。这种强强联合的效果立竿见影——在Sea-Helm评估榜单上,搭载了阿里“心脏”的Sea-Lionv4,迅速在同量级开源模型中占据了榜首位置。
如果说之前千问,Kimi,智谱等模型纷纷获得硅谷大佬认可是基于性能和性价比的双重优势因素,那么本次翻看AISG项目一路从AWS到阿里云,从Llama到Qwen,新加坡Sea-Lion项目的演变,折射出全球AI格局正在发生微妙的权力转移。
长期以来,全球技术基础设施几乎被美国垄断。但在大模型时代,中国企业凭借对多语言环境的深刻理解和极致的性价比优化,正在成为“全球南方”国家构建主权AI的首选合作伙伴。