炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:IT之家)
IT之家 6 月 16 日消息,谷歌昨日(6 月 15 日)更新其 Android Bench 榜单,自家 Gemini 3.5 Flash 模型成绩明显低于外界预期。
IT之家注:Android Bench 是谷歌官方推出的安卓开发任务基准测试,用来评估不同 AI 模型在代码编写、问题解决与开发辅助方面的实际能力。
该测试更贴近真实开发场景,专门衡量 AI 模型完成安卓开发任务的能力,因此对开发者选择模型有较强参考价值。
根据谷歌官方更新的 Android Bench 榜单,OpenAI 的 GPT-5.5 模型以 74 得分位居榜首,GPT-5.4 模型以 72.4 得分位居第二。
谷歌自家的 Gemini 3.1 Pro Preview 以 72.4 得分位居第三;而 Claude Opus 4.7(68.7 分)和 Opus 4.6(66.6 分)位居第四和第五。
其中让 Android Authority 等媒体感到惊讶的是,谷歌 Gemini 3.5 Flash 只拿到 63.7 分,最终排在第 6,未进入前 5。
在平均 Token 消耗量(每次基准测试包括 100 个任务,执行 10 次计算平均消耗)方面,谷歌 Gemini 3.5 Flash 平均消耗 3.559 亿 Tokens,折合单次运行平均成本 147.1 美元(现汇率约合 996.1 元人民币),成为整个榜单里最贵的模型。
谷歌在 I/O 2026 上发布 Gemini 3.5 Flash 时,称其是迄今最强的 Flash 模型,并强调编码能力更稳健,也更适合 AI 智能体与复杂工作流。
谷歌还表示,这款模型在部分内部基准测试中优于 Gemini 3.1 Pro,输出速度最高可达竞争性前沿模型的 4 倍。
但 Android Bench 给出的结论并不一致,至少在真实的安卓开发任务场景里,Gemini 3.5 Flash 没有体现出应有优势。
Gemini 3.1 Pro Preview 不仅分数更高,成本也大约只有 Gemini 3.5 Flash 的 1/3,这让开发者很难忽视它在性价比上的落差。
此外基于页面信息,智谱的 GLM 5.1 以 59.7 分位居第七;而 Kimi K2.6 以 58.6 分位居第八,DeepSeek V4 Pro 以 55.4 分位居第十;而 DeepSeek V4 Flash 以 52.7 分位居第 12 位,折合单次运行平均成本只需要 8.4 美元(现汇率约合 56.9 元人民币)。Gemini 3.5 Flash 单次运行平均成本是 Deepseek V4 Flash 的 17.5 倍。