
中国南极考察队完成宇航员海磷虾调查(新华社记者 刘诗平/摄)
南极磷虾是鱼类、鲸类、企鹅、海豹的主食,其数量和分布变化更是全球气候变化的重要风向标。磷虾研究与人类生存息息相关,但有两个问题始终困扰着研究人员:南大洋到底有多少磷虾?它们分布在哪儿?
近日,上海人工智能实验室联合国家极地科学数据中心,基于“书生”科学发现系统Intern·Agent,打造出科学数据智能体SciDataCopilot,系统整合近百年间的全球观测数据,构建起包含8万余条南极磷虾出现记录、1万余条丰度数据的标准化数据集,体量已超过国际通用基准数据库。这张全球磷虾“地图”将助力极地科考研究人员更精准地掌握南极磷虾的季节分布趋势,在全球变暖背景下,为南极海洋生态保护提供科学依据。
数据庞杂标准不一,整合难度高
作为南极生态系统的基石物种,南极磷虾连接着从浮游植物到鲸类、企鹅的食物链,其分布和数量直接反映着南极冰盖消融与洋流变暖的速度。百年来,中国、美国、澳大利亚及欧洲多国持续开展实地调查,积累了海量观测记录。
然而,行业长期面临难以破解的数据治理痛点:一方面,南极磷虾观测数据来源多、标准不一。相关数据零散分布在各国科考档案、航次报告、学术文献及公共数据库中,涵盖各类文件格式,跨源整合难度高。同时,不同科考航次采用的采样设备、统计方法和计量单位也不一致,数据之间无法直接横向比对。另一方面,依赖人工整编如此庞杂的数据,周期往往长达数年,不仅效率低,还容易产生操作误差,且人工处理缺乏完善的数据溯源体系,难以满足学术成果复现、数据合规审计和极地资源监管的可信度要求。

全球磷虾调查资料模态与格式多样
为此,联合团队依托“书生”科学发现系统和科学数据智能体的全自动化整编能力,对全球海量异构数据进行自动解析、标准化处理、质控与溯源管理,让每一条记录既可纳入统一计算,也能追溯来源,最终构建了南极磷虾数据集。
该数据集覆盖1926年至2025年间横跨百年的南极磷虾观测历史,不仅新增8万余条调查站位记录,还扩展了国际惯用磷虾数据的数据体量和分布范围,并对原有数据进行了补充完善,有望支撑更多南大洋生态物种分布和全球气候变化的科学发现。

南极磷虾丰度数据采样站位示意图
智能体自主整编,效率提升30倍
能从百年科考记录中高效、准确地“译”出这套标准化数据集,关键在于科学数据智能体SciDataCopilot。该智能体依托“书生”科学发现系统开发,融合智能文档解析引擎MinerU,可针对科学实验数据准备过程中存在的模态形式多样、科学机理隐含、专业知识依赖、专业工具分散、任务定制化程度高等问题进行专项设计,实现从自然语言意图到高质量科学数据的全链路自动化数据准备。

标准化前后的磷虾丰度数据可视化对比。经标准化处理后,斯科舍海高丰度区的空间分布特征更为显著
此次项目中,联合团队借助SciDataCopilot搭建了“数据智能规划—脚本自动生成—专家校核完善”的一体化整编流程。系统能自动识别一条观测记录是否属于南极磷虾成体数据,判断数据类型,并统一经纬度、时间、采样深度、网具类型、来源等关键信息,将不同计量单位的丰度数值换算为可比的标准密度。同时,系统自动筛查重复、缺失或异常记录,辅助专家进行人工复核,并完整留存可审计的操作日志。
该智能体有效加速了南极磷虾数据集构建,整套流程仅需调用大模型约2000次即可完成,并沉淀出数据筛查、字段理解、标准换算、质量质控等全套磷虾数据处理技能。针对某一特定类型调查数据格式,智能体仅需40至60轮交互即可完成整编,相比人工模式,整体效率提升30倍以上。

SciDataCopilot架构及数据处理流程
上海人工智能实验室表示,此次研究验证了智能体赋能复杂科学数据治理的可行性。未来将把“书生”科学发现系统拓展至极地调查、海洋生态及地球系统科学等更多数据治理场景,助力科研人员将散落于各类档案的观测资料,盘活为支撑长期机理研究与智能分析的标准化数据资源。
下一篇:没有了