九方智投控股多媒体检索论文获美国计算机协会高水平国际会议ICMR 2026收录_财经一览

九方智投控股多媒体检索论文获美国计算机协会高水平国际会议ICMR 2026收录

创始人

2026-06-17 19:30:05

0次

6月16日，九方智投控股（9636.HK）联合约翰·霍普金斯大学发表的多模态领域论文获多媒体检索国际会议ICMR 2026收录。此次收录，彰显了公司在人工智能、大语言模型等前沿科技领域的创新探索与成果，同时也是国际专业机构对公司金融科技实力的又一肯定。

据悉，多媒体检索国际会议（International Conference on Multimedia Retrieval）是美国计算机协会（ACM）举办的系列会议，目前已成为多媒体领域的高水平国际会议。ICMR聚焦于多媒体检索领域的最新研究成果、技术进展和应用实践，涵盖了图像、视频、音频、文本等多种媒体类型的检索技术，现已成为中国计算机学会CCF推荐的“计算机图形学与多媒体”领域B类会议。

本次入选论文题为《实现基于大语言模型的推理分割：将图像感知与多模态推理解耦》，由九方智投控股旗下人工智能中心团队与约翰·霍普金斯大学博士沈逸卿联合完成。论文聚焦多媒体检索领域，提出了一种基于大语言模型的图像感知与多模态推理解耦方法，实现了更精准的视觉感知能力以及视觉与文本之间的推理能力。相关技术未来有望为九方智投控股在金融图表AI智能分析方向的路径创新提供重要技术支撑。

为进一步深化“AI+金融”的创新升级，九方智投控股积极构建金融科技生态圈，先后携手复旦大学、上海财经大学、香港科技大学等高等院校，华为、腾讯、科大讯飞等科技企业，打造“产-学-研”金融科技研发链路，高效赋能公司高质量发展。近年来，九方智投控股及旗下公司多篇人工智能领域技术论文接连获得COLING、NAACL、ICAIF等国际顶会收录，金融科技实力获专业认可。

未来，公司将继续深耕金融科技前沿领域，与全球顶尖高校及科技伙伴深化合作，以技术创新驱动金融服务的智能化升级，为用户提供更简单、更专业的智能投顾解决方案，助力数字金融生态的持续进化与繁荣。

论文概要

论文题目：Decoupling Multimodal Perception and Reasoning for Image Reasoning Segmentation with Large Language Models（实现基于大语言模型的推理分割：将图像感知与多模态推理解耦）

作者：沈逸卿、陈峰

合作单位：约翰·霍普金斯大学

收录主体：ICMR 2026 多媒体检索国际会议

摘要：

推理分割（Reasoning Segmentation, RS）是一项多模态视觉－文本任务，要求基于隐含的文本查询对物体进行分割，这既需要精确的视觉感知能力，也需要视觉－文本推理能力。当前的RS方法依赖于对视觉－语言模型（VLMs）进行微调以同时实现感知与推理，但这类模型对图像的token化处理从根本上破坏了物体间连续的空间关系。

我们提出了DTwinSeger，一种新颖的RS方法，它利用数字孪生（Digital Twin, DT）表示作为中间层，将感知与推理过程解耦。DTwinSeger的创新之处在于将RS重新构想为两阶段流程：第一阶段将图像转换为结构化的DT表示，该表示保留了空间关系与语义属性；随后第二阶段使用大语言模型（LLM）在该表示上进行显式推理，以识别目标物体。我们提出了一种专门针对带DT表示的LLM的监督微调方法，并构建了相应的微调数据集Seg-DT，以增强LLM在处理DT表示时的推理能力。

实验表明，我们的方法在两个图像RS基准和三个图像指代分割基准上均达到了最先进的性能。结果证明，DT表示能够作为视觉与文本之间的有效桥梁，使得仅凭LLM即可完成复杂的多模态推理任务。

Abstract:

Reasoning Segmentation (RS) is a multimodal vision-text task that requires segmenting objects based on implicit text queries, demanding both precise visual perception and vision-text reasoning capabilities. Current RS approaches rely on fine-tuning vision-language models (VLMs) for both perception and reasoning, but their tokenization of images fundamentally disrupts continuous spatial relationships between objects.

We introduce DTwinSeger, a novel RS approach that leverages Digital Twin (DT) representation as an intermediate layer to decouple perception from reasoning. Innovatively, DTwinSeger reformulates RS as a two-stage process, where the first transforms the image into a structured DT representation that preserves spatial relationships and semantic properties and then employs a Large Language Model (LLM) to perform explicit reasoning over this representation to identify target objects. We propose a supervised fine-tuning method specifically for LLM with DT

representation, together with a corresponding fine-tuning dataset Seg-DT, to enhance the LLM’s reasoning capabilities with DT representations.

Experiments show that our method can achieve state-of-the-art performance on two image RS benchmarks and three image referring segmentation benchmarks.

上一篇：对话非洲｜谁来讲述非洲？

下一篇：广东发布全国首份蓝色金融省级团体标准

九方智投控股多媒体检索论文获美国计算机协会高水平国际会议ICMR 2026收录

相关内容

热门资讯