多模态医学图像中的模态缺失问题

这是一篇 arxiv 上最新的关于多模态医学图像分割任务中，解决模态缺失问题的研究。

发表于 2025/10/10 更新于 2025/10/10

作者 Ziquan Liu

4 分钟阅读

多模态医学图像中的模态缺失问题

UniMRSeg: Unified Modality-Relax Segmentation via Hierarhical Self-Supervised Compensation

link: [https://arxiv.org/abs/2509.16170v1]

在真实应用场景下，由于传感器问题、低质量数据以及临床限制等等因素，可能会导致输入模态缺失的问题。最近在解决模态缺失问题的研究中，主要落脚到两个挑战。

Introduction

大多数方法（CMX、tokenfusion、CMNeXt、SSLSOD）聚焦于设计自适应的跨模态交互上，以合并多模态特征，同时保留单模态场景下的通用结构。然而在推理过程中，不同模态的结合需要分开的模型，或独立的模态编码器，这不仅提升了在实际部署中的资源消耗，同时需要额外的手动或自动的模态分类作为前提。尽管一些工作（M3AE、KD brats）使用了从完整模态到缺失模态的知识蒸馏方法，但它们仍然需要不同的模型来针对每一个模态子集，这复杂化了临床部署。

基于模态重建的方法（SSLSOD、M3AE、MaskMentor）目标在于预测缺失模态的输入，以在训练和推理过程中对齐特征。由于分割任务需要精确的空间特征和边界信息，而预训练的重建模型更加注重于全局特征压缩，这导致了特征表示的不足。因此直接从输入层面（SSLSOD、M3AE）或特征层面（MaskMentor）进行重建以降低模态差距是很困难的。特别地，如果将低质量重建预测结果作为分割网络的输入，会提升误差传播并降低分割效果。

Method

UniMRSeg 对于所有可能的模态输入完全共享 100% 的参数。完整的模态输入经常能够产生最好的预测结果，因此 UniMRSeg 的目标是在训练之后，使用任意模态输入的推理过程中，其能够接近完整的模态表征质量。对此， UniMRSeg 充分利用自监督学习，提出了一个层级化的补偿机制，作用于输入层面、特征层面和输出层面。

首先使用跨模态重建作为 pretext task。UniMRSeg 同时使用了全局和局部的掩码机制。然后，引入了一个 channel-wise 的模态 shuffling 操作，去破坏输入和重建模态之间的联系。进一步地，使用对比学习来完成特征层面的补偿机制。具体来说，UniMRSeg 将来自同一样本中的完整的和随机缺失的模态作为正样本对，那些来自其他样本的作为负样本对。为了增强对于分割任务的表征继承，UniMRSeg 联合优化空间距离度量和目标分割，以引导特征聚集到有益于分割结果的方向上。UniMRSeg 设计了一个轻量化的反向注意力 adapter ，嵌入到 3d SwinTransformer 中来捕获模态间高相应的互注意力模式，通过添加特征层面的一致性约束，确保 adapter 能够感知在任何模态缺失组合下，固有的部分表示缺陷。最后，UniMRSeg 在分割一致性约束下微调，输出的完整模态所表征的知识会被蒸馏到所有模态缺失组合中。

UniMRSeg 架构图

Medical Image Segmentation, Multi-modal

new papers sharing

本文由作者按照 CC BY 4.0 进行授权

UniMRSeg: Unified Modality-Relax Segmentation via Hierarhical Self-Supervised Compensation

Introduction

Method

热门标签