中经记者 谭伦 北京报道
随着数据以指数级速度形成“数字洪流”,治理能力已成为当前政企数字化转型的核心命题。IDC数据显示,2025年中国数据产量将达51.78ZB,但有效留存率仅5.1%,超九成数据因治理缺失沦为“沉睡资产”。
其中,政企领域的矛盾更显突出。据信通院《数据治理成熟度报告》调研,2025年78%的国内企业已实施数据治理,但仅有不足30%的企业实现数据资产化运营,技术标准混乱、安全风险凸显等问题成为普遍痛点。
在此背景下,日前举行的北京第四届数据治理年会期间,百分点科技政企事业部总经理马伟凯在现场向《中国经营报》记者表示,随着AI时代来临,数据治理的焦点必须从“如何管好数据”转向“如何用好数据”,而利用具备深度行业认知的垂直模型,解决垂直场景中复杂的治理痛点,有望成为破局关键。
行业的隐痛:治理3.0时代的必然选择
“数据治理”并非新鲜词汇。从早期的数仓建设到后来的数据中台,企业为了理清数据资产,投入了巨大的人力财力。但在马伟凯看来,这个行业正面临着成长的瓶颈。
“回顾过去十年,数据治理大致经历了三个阶段。”马伟凯分析道。在1.0时代,行业比拼的是功能,看谁能更快汇聚数据;在2.0时代,随着算法提升,平台功能开始智能化,效率有所提高,但核心痛点依旧明显——严重依赖行业专家,如果没有懂业务的专家支持,平台根本转不起来。
这就导致了一个经典的“治理悖论”:企业为了数字化转型需要高质量数据,但获取高质量数据需要漫长的周期、高昂的专家成本和复杂的跨部门协调。传统治理模式下,规则僵化、语义割裂、任务碎片化等问题层出不穷,大量数据资产因此处于“沉睡”状态。
“今年DeepSeek爆火以后,大家明显能感触到行业都在往智能化的方向努力。但目前的智能化更多是单点提升,缺乏体系化。”马伟凯指出,行业亟须进入3.0时代,即依托垂直领域大模型,实现全流程的智能赋能。
据Gartner预测,到2028年,企业中超过50%的生成式AI模型将为特定领域模型。从规则驱动向智能驱动转型,已不再是选择题,而是必答题。
选择垂直模型:为何通用大模型“不懂”数据治理?
在ChatGPT等通用大模型横扫全球的背景下,为何却选择垂直大模型来解决数据治理痛点呢?
马伟凯在现场举了一个生动的例子:“如果在通用模型里查‘三防’指什么,它大概率会告诉你电子消费领域的‘防尘、防水、防摔’。但如果在应急管理的业务场景下,‘三防’指的是‘防汛、防旱、防风’。”
这个细微的差别,揭示了通用大模型在垂直行业落地的致命伤——缺乏深度业务理解。数据治理是一项极度依赖行业Know-How的工作,涉及复杂的标准、质量规则、血缘关系和合规要求。通用大模型往往面临“知识肤浅、幻觉频发”的困境。
因此,百分点科技的选择是深入行业。在大会期间,百分点科技正式发布了业内首个“百思数据治理大模型(BS-LM)”。马伟凯介绍,其过去十年服务16个部委、90余个省市、50余家央企所积累的近千个项目经验。这些实战中沉淀的数据模型、质量规则、标准文档,构成了BS-LM区别于通用模型的壁垒。
为了让大模型真正“懂行”,百分点科技构建了一套独特的数据回流机制。马伟凯透露,在内部交付流程中,项目产生的数据主题库、标准元数据、运营指标体系等必须回流,这直接影响项目考核。这种强制性的知识沉淀,确保了训练语料的高质量与鲜活性。
在技术架构上,BS-LM采用了“知识原语”理念,将复杂的治理知识解构为可计算的语义单元。通过“通用指令学习、领域增强、能力对齐”的多阶段训练,以及模型融合技术,有效解决了单一模型容易出现的“知识遗忘”和“语义漂移”问题。这意味着,BS-LM能理解政务、应急等领域的专有名词,能进行多步骤逻辑推理,甚至能自动生成符合国标行标的数据标准体系。
而在大模型输出治理建议之后,如何将建议转成代码、流程与运行,是另一道难题。百分点科技的回答是:用多智能体与对话式交互的治理平台来承接模型能力。同期发布的百思数据治理平台(AI-DG)以自然语言交互为入口、以智能体群为执行单元,作为百思大模型的深度协同伙伴,承担着从“智能决策”到“高效执行”的关键使命。现场演示显示,用户只需用业务语言描述需求,系统便能自动生成调研模板、数据接入任务、仓库与指标设计,直至生成可运行的数据处理逻辑。
落地为王:从“建标准”到“提价值”
任何技术的革新,最终都要回归到商业价值的验证。记者注意到,目前,百思大模型已经成为政务、应急、央国企等关键领域落地的实战利器。
在智慧应急领域,广州市白云区应急管理局通过智能治理,对多源异构的预案数据进行了整合,支撑了高效的预案智能分析。在某省应急厅的“智能问数”应用中,跨业务数据的获取与决策效率显著提升,真正实现了从被动响应向主动治理的跨越。
这些案例折射出数据治理核心使命的变迁:从过去的“管好数据”,转向了“用好数据”。马伟凯认为,进入治理3.0时代,关键不只是把AI放进平台,而是把“行业知识变成可计算的原语”,让智能体去做那些重复性、规则性强的工作,让人去做更高价值的判断。
这一论断,也呼应了行业趋势。随着数据成为核心生产要素,治理能力的标准化、普惠化成为必然。马伟凯预计:“垂类大模型会越来越普及,未来的竞争不是参数大小,而是场景深度与知识厚度。”当跨行业知识实现互联互通,数据治理有望真正成为数字经济的底层支撑。
(编辑:张靖超 审核:李正豪 校对:颜京宁)