Wang Mengyu, Zhenyu Liu, et al. "Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion,"IEEE Transactions on Multimedia(2026), vol. 28, pp. 4624-4637, 2026, doi: 10.1109/TMM.2026.3660142.https://ieeexplore.ieee.org/stamp/stamp.jsptp=&arnumber=11370226&isnumber=1134https://github.com/Zhen-yu-Liu/AdaSFFuse1.研究背景
多模态图像融合(Multimodal Image Fusion,MMIF)旨在将来自不同成像模态的互补信息整合为一幅高质量图像,广泛应用于遥感、医学诊断和机器人导航等领域。典型任务包括:- 红外-可见光图像融合(IVF):红外图像能在弱光环境下捕获热辐射特征,但分辨率低、缺乏色彩;可见光图像分辨率高但目标特征不突出。二者融合可互补增强目标感知。
- 多曝光图像融合(MEF):保留高动态范围场景下的细节信息。
- 多焦点图像融合(MFF):解决景深限制引起的模糊问题。
- 医学图像融合(MIF):融合CT、MRI、PET等多模态医学影像,提升诊断精度。
尽管深度学习方法在MMIF领域取得了显著进展,现有方法仍面临三大核心挑战:- 模态失配问题:不同成像模态之间存在显著的频率分布差异,直接对齐极为困难。
- 高频细节损失:融合过程中往往造成纹理、边缘等高频信息的退化,影响图像质量。
- 任务泛化能力不足:大多数现有方法针对特定融合任务设计,难以统一处理多种MMIF场景,泛化性受限。
图1四种多模态图像融合任务的频域可视化图源:IEEE Transactions on Multimedia(2026) https://ieeexplore.ieee.org/abstract/document/11370226(Fig.1)
2.创新点
针对以上挑战,研究团队提出了AdaSFFuse 框架,通过自适应跨域协同融合学习实现任务泛化的多模态图像融合。框架包含两大关键创新模块:(1)自适应近似小波变换(AdaWAT)
传统小波变换(WAT)依赖固定的手工滤波器,无法根据任务需求动态调整,限制了不同模态图像频率特征的精细提取能力。AdaWAT通过将分组卷积与膨胀卷积融入2D离散小波变换(2D-DWT)框架,实现了对输入信号空间分布的自适应匹配。具体而言,AdaWAT将图像特征分解为四个子信号分量:其中,
和
分别对应低频和高频自适应分析向量。低频分量用膨胀率为3的膨胀卷积增强平滑性,高频分量用膨胀率为1的卷积强化细节,从而实现各模态图像频率特征的细粒度解耦与对齐。同时,AdaIWAT(自适应逆小波近似变换)通过转置卷积与自适应权重完成精确信号重建,确保融合过程中任务相关特征的最小信息损失。(2)空间-频率Mamba模块(Spatial-Frequency Mamba Block)
针对现有Mamba架构难以有效处理2D图像复杂空间-频率特征的局限,研究团队提出了自适应域状态空间对偶模块(AdaD-SSD),包含两项关键改进:- 空间感知分支:采用卷积算子结合SiLU激活函数,增强局部空间依赖与全局特征表示能力:
- 频率滤波分支:利用FFT将特征映射至频率域,通过可学习自适应滤波器动态筛选有益于融合的频率分量,再经IFFT重建:
两个分支的输出经过自适应跨域融合策略合并,扩展为2D-SSD形式,实现对空间子区域内局部状态与区域间全局信息的并行建模,有效促进空间域与频率域的深度协同融合。3.方法框架
给定两幅来自不同模态的对齐源图像
,框架执行以下步骤:- 特征嵌入:提取初始多模态特征
; - AdaWAT频率解耦:将各模态特征分解为高频子信号
与低频分量
; - 频率分段融合:分别对高频和低频分量进行跨模态融合,得到
; - 浅层融合(Mamba Block):空间-频率Mamba模块处理融合的频率特征,强化自适应频率感知;
- 深度融合(Mamba Block):进一步挖掘空间域与频率域的互补信息,输出最终融合图像
。
图2AdaSFFuse整体网络架构图图源:IEEE Transactions on Multimedia(2026) https://ieeexplore.ieee.org/abstract/document/11370226(Fig.2)4.实验结果
(1)定量定性对比分析
研究团队在四项MMIF主流基准任务上,与10种最先进(SOTA)方法进行全面对比。评价指标包括熵(EN)、标准差(SD)、空间频率(SF)、互信息(MI)、差分相关之和(SCD)、视觉信息保真度(VIF)、Qabf和结构相似性(SSIM)。i.在红外-可见光融合(IVF)任务中,AdaSFFuse在所有指标上全面超越对比方法,其中MI达到3.06、Qabf达到0.79、SSIM达到1.51,充分验证了源图像到融合图像的信息高效传递与低失真融合的优越性。图3AdaSFFuse在LLVIP数据集上的特征图可视化图源:IEEE Transactions on Multimedia(2026)
https://ieeexplore.ieee.org/abstract/document/11370226(Fig.6)
ii.在多曝光融合(MEF)任务中,AdaSFFuse在SD(66.4)、SF(21.93)和SSIM(1.32)三项关键指标上领先于当前最佳方法CDDFuse,融合图像在色彩保真度、细节清晰度与亮度平衡方面均表现优异。iii.在多焦点融合(MFF)任务中,AdaSFFuse在EN(7.48)、MI(4.87)、SSIM(1.78)等指标上均达到最优,体现出卓越的信息保真与结构一致性保持能力,有效规避了边缘模糊和特征丢失问题。iv.在医学图像融合(MIF)任务中,AdaSFFuse在VIF(0.80)、Qabf(0.74)和SSIM(1.49)三项指标上超过最优对比方法,融合图像展现出增强的对比度与亮度,更丰富的组织细节与病变区域信息。图4定性对比图图源:IEEE Transactions on Multimedia(2026)https://ieeexplore.ieee.org/abstract/document/11370226(Tab.Ⅰ)图5定量对比图图源:IEEE Transactions on Multimedia(2026)https://ieeexplore.ieee.org/abstract/document/11370226(Fig.4)(2)计算复杂度分析
AdaSFFuse仅需0.78M参数,相比HitFusion(9.81M)和EMMA(1.52M)分别减少92.0%和48.7%;计算量(FLOPs)为82.81G,分别比SwinFusion(254.92G)和MambaDFuse(232.60G)降低67.5%和64.4%;推理延迟70.13ms,比SwinFusion(1157.83ms)节省93.9%,实现了性能与效率的高度平衡。图6与SOTA方法的计算复杂度对比图源:IEEE Transactions on Multimedia(2026)https://ieeexplore.ieee.org/abstract/document/11370226(Fig.7)(3)下游任务验证
目标检测:在M3FD数据集上,基于YOLOv5/YOLOv8的实验表明,融合图像的平均检测精度mAP@[0.5:0.95]分别达到0.447(YOLOv5)和0.480(YOLOv8),均高于单独使用红外图像或可见光图像,验证了融合结果对实际视觉任务的实用价值。语义分割:在MFNet数据集上,融合图像在主要目标类别(如行人、车辆)的IoU和平均准确率均排名第一,证明AdaSFFuse能有效促进多模态语义信息的协同感知。图7下游任务验证对比图源:IEEE Transactions on Multimedia(2026)https://ieeexplore.ieee.org/abstract/document/11370226(Tab.Ⅵ)5.总结与展望
本研究提出的AdaSFFuse框架,通过自适应近似小波变换(AdaWAT)实现多尺度频率解耦,借助空间-频率Mamba模块在空间域和频率域双重维度上完成自适应跨域协同融合,在四项主流MMIF任务上均取得了领先性能,同时具备极低的参数量与计算开销,为通用多模态图像融合树立了新的性能基准。未来工作将进一步探索融合策略与下游任务的端到端联合优化,使融合过程与任务目标更紧密地耦合,以应对更复杂的现实场景需求,推动多模态感知系统向更鲁棒、更智能的方向发展。6.作者简介
王梦宇,论文第一作者,中国科学技术大学工学博士,中国科学院博士后,江西省主要学科学术和技术带头人,江西省科技副总,中国光学工程学会光谱及应用专委会青年委员,南昌航空大学特聘副教授。Advanced Devices & Instrumentation、Sensors、宇航计测技术、量子电子学报、光通信研究、机械科学与技术、华中师范大学学报、河北大学学报等SCI、EI、核心期刊特刊编辑/青年编委。主要从事航空发动机部件检测、光电信息处理与感知、微腔光子学及检测、光频梳及精密测量等相关研究工作,主持国家自然科学基金,赣鄱俊才支持计划-主要学科学术和技术带头人项目,揭榜挂帅重大榜单项目,江西省重点研发计划,江西省自然科学基金A类(省杰青),国防服务项目等课题27项(国家级和百万级课题6项)。发表高水平论文100余篇,申请/授权国家发明专利46项,江西省新产品6项,企业标准2项。第一/通信作者在IEEE Transactions on Multimedia, Photonics Research, Journal of Lightwave Technology, Optics Letters, Optics Express等高水平期刊发表论文50余篇,包括中科院二区以上论文30篇。获南昌航空大学教学成果二等奖三项(一项排名第一),作为指导老师获国际青年人工智能大赛国际金奖、全国大学生集成电路创新创业大赛全国一等奖、全国大学生光电设计竞赛全国一等奖等省部级以上奖项30余项。刘振宇,论文主要贡献作者,南昌航空大学光电信息工程专业硕士研究生,主要从事计算机视觉与深度学习研究。王飞,论文通信作者,合肥工业大学工学博士,师从汪萌教授,合肥综合性国家科学中心人工智能研究院普适心理计算团队技术负责人、企业研究院负责人,积极投身于产学研的技术落地任务,围绕普适情感计算与多模态无感感知技术,带领技术团队开发迭代垂直领域标准化产品,包括智能心理监护系统、多模态身心测评一体机、智能交互式干预座舱等,服务社会人次覆盖20万余人,获ChinaAIGC Top100、日内瓦国际发明展银奖等。发表国际顶级会议CVPR、ICCV、AAAI、WWW等十余篇,TMM、TCSVT、TOMM等国际顶级期刊十余篇,曾获CVPR、ACM MM、IJCAI等国际顶级会议赛事冠军6项、亚军3项与季军2项。同时担任CVPR、ICLR、NeurIPS、AAAI等国际顶级会议和TPAMI,TMM,TCSVT国际顶级期刊PC/Reviewer。授权发明专利十余项。围绕情感智能+具身智能,以合肥综合性国家科学中心人工智能研究院开展孵化安徽进化论科技有限公司,实现以千万级真实情感交互数据训练的具身情感交互大模型为核心,构建起一套完整的人机情感交互体系。