6月16日,九方智投控股(9636.HK)联合约翰·霍普金斯大学发表的多模态领域论文获多媒体检索国际会议ICMR 2026收录。此次收录,彰显了公司在人工智能、大语言模型等前沿科技领域的创新探索与成果,同时也是国际专业机构对公司金融科技实力的又一肯定。
据悉,多媒体检索国际会议(International Conference on Multimedia Retrieval)是美国计算机协会(ACM)举办的系列会议,目前已成为多媒体领域的高水平国际会议。ICMR聚焦于多媒体检索领域的最新研究成果、技术进展和应用实践,涵盖了图像、视频、音频、文本等多种媒体类型的检索技术,现已成为中国计算机学会CCF推荐的“计算机图形学与多媒体”领域B类会议。
本次入选论文题为《实现基于大语言模型的推理分割:将图像感知与多模态推理解耦》,由九方智投控股旗下人工智能中心团队与约翰·霍普金斯大学博士沈逸卿联合完成。论文聚焦多媒体检索领域,提出了一种基于大语言模型的图像感知与多模态推理解耦方法,实现了更精准的视觉感知能力以及视觉与文本之间的推理能力。相关技术未来有望为九方智投控股在金融图表AI智能分析方向的路径创新提供重要技术支撑。
为进一步深化“AI+金融”的创新升级,九方智投控股积极构建金融科技生态圈,先后携手复旦大学、上海财经大学、香港科技大学等高等院校,华为、腾讯、科大讯飞等科技企业,打造“产-学-研”金融科技研发链路,高效赋能公司高质量发展。近年来,九方智投控股及旗下公司多篇人工智能领域技术论文接连获得COLING、NAACL、ICAIF等国际顶会收录,金融科技实力获专业认可。
未来,公司将继续深耕金融科技前沿领域,与全球顶尖高校及科技伙伴深化合作,以技术创新驱动金融服务的智能化升级,为用户提供更简单、更专业的智能投顾解决方案,助力数字金融生态的持续进化与繁荣。
论文概要
论文题目:Decoupling Multimodal Perception and Reasoning for Image Reasoning Segmentation with Large Language Models(实现基于大语言模型的推理分割:将图像感知与多模态推理解耦)
作者:沈逸卿、陈峰
合作单位:约翰·霍普金斯大学
收录主体:ICMR 2026 多媒体检索国际会议
摘要:
推理分割(Reasoning Segmentation, RS)是一项多模态视觉-文本任务,要求基于隐含的文本查询对物体进行分割,这既需要精确的视觉感知能力,也需要视觉-文本推理能力。当前的RS方法依赖于对视觉-语言模型(VLMs)进行微调以同时实现感知与推理,但这类模型对图像的token化处理从根本上破坏了物体间连续的空间关系。
我们提出了DTwinSeger,一种新颖的RS方法,它利用数字孪生(Digital Twin, DT)表示作为中间层,将感知与推理过程解耦。DTwinSeger的创新之处在于将RS重新构想为两阶段流程:第一阶段将图像转换为结构化的DT表示,该表示保留了空间关系与语义属性;随后第二阶段使用大语言模型(LLM)在该表示上进行显式推理,以识别目标物体。我们提出了一种专门针对带DT表示的LLM的监督微调方法,并构建了相应的微调数据集Seg-DT,以增强LLM在处理DT表示时的推理能力。
实验表明,我们的方法在两个图像RS基准和三个图像指代分割基准上均达到了最先进的性能。结果证明,DT表示能够作为视觉与文本之间的有效桥梁,使得仅凭LLM即可完成复杂的多模态推理任务。
Abstract:
Reasoning Segmentation (RS) is a multimodal vision-text task that requires segmenting objects based on implicit text queries, demanding both precise visual perception and vision-text reasoning capabilities. Current RS approaches rely on fine-tuning vision-language models (VLMs) for both perception and reasoning, but their tokenization of images fundamentally disrupts continuous spatial relationships between objects.
We introduce DTwinSeger, a novel RS approach that leverages Digital Twin (DT) representation as an intermediate layer to decouple perception from reasoning. Innovatively, DTwinSeger reformulates RS as a two-stage process, where the first transforms the image into a structured DT representation that preserves spatial relationships and semantic properties and then employs a Large Language Model (LLM) to perform explicit reasoning over this representation to identify target objects. We propose a supervised fine-tuning method specifically for LLM with DT
representation, together with a corresponding fine-tuning dataset Seg-DT, to enhance the LLM’s reasoning capabilities with DT representations.
Experiments show that our method can achieve state-of-the-art performance on two image RS benchmarks and three image referring segmentation benchmarks.
上一篇:对话非洲|谁来讲述非洲?