炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:澎湃新闻)
“希望在接下来的十年、二十年的时间,继续把K4、K5到K100做的更好。”
1月10日,在清华大学基础模型北京市重点实验室主办的AGI-Next前沿峰会上,AI大模型独角兽月之暗面(Kimi)创始人、CEO杨植麟谈到Kimi在未来的发展规划。
澎湃新闻记者 范佳来 摄在大模型迎来上市潮流之际,同为大模型独角兽的Kimi的资本动态受到外界广泛关注。去年12月31日,杨植麟曾在内部全员信中表示,公司已完成5亿美元C轮融资,账面有超过100亿元人民币的现金储备。
此外,信中还透露,Kimi全球付费用户数月增速170%,受K2 Thinking大模型带动,Kimi在海外的大模型API收入增长4倍。
杨植麟表示,自2019年以来,全球大模型的发展都遵循一个核心规律——Scaling Law,本质上就是“更多算力、更多数据、更大模型参数,能让AI更聪明、犯错更少”。这一规律的落地,离不开主流架构Transformer的支撑。
他举例说明,Transformer与早期的LSTM架构相比,在处理短文本任务时效果相近,但面对长文本、复杂任务时,Transformer能更清晰地记住逻辑关系,就像“看短文章不分上下,读长篇报告则优势明显”,这也成为其适配当下编程、复杂问题求解等场景的关键。
基于这一核心规律,Kimi的技术研发聚焦两大方向:让AI“学东西更快”和“记东西更久”。为实现这两个目标,团队取得了两项关键技术突破。一是推出MUON二阶优化器,相较于行业沿用十年的Adam优化器,新优化器让AI的学习效率翻倍,“原本要读100份资料才能学会的技能,现在50份就够,还学得更扎实”。
二是研发Kimi Linear架构,解决了传统技术“记久了就出错”的问题,在处理百万字级长文本时,速度比传统架构快6-10倍,且逻辑更稳定。
值得一提的是,团队还攻克MUON优化器训练中的“Logit爆炸”难题,通过动态QK-clip技术,在不影响效果的前提下,实现万亿参数级Kimi K2模型的稳定训练。作为中国首个真正意义上的Agent模型,Kimi K2具备两三百步工具调用能力,能独立完成复杂编程、难题推导等任务,在核心测试HLE中准确率达到45%,超越了OpenAI同类模型。
杨植麟透露,目前已有多款中国开源模型成为行业测试标准,“中国技术不仅要好用,还要参与制定规则”。面向未来,团队将持续迭代技术,下一代模型将采用Kimi Delta Attention新型线性注意力机制,进一步提升短长文本任务性能与速度。同时,未来的大模型还将具备更多“审美”和“价值观”,摆脱同质化发展。
对于公众关心的AI安全问题,杨植麟分享与Kimi的对话感悟:“AI可能是人类探索未知的钥匙,能帮我们攻克癌症、解决能源危机、探索宇宙。虽然有风险,但放弃发展就等于放弃人类文明的上限。”
他表示,团队将在做好风险控制的前提下持续突破,计划未来十年、二十年内,陆续推出K4、K5直至K100系列模型。(记者注:目前最新版本的Kimi大模型是K2)