基于可解释性监督的多模态三维目标检测
摘要
针对多模态三维目标检测中因模态贡献失衡导致的性能下降问题,本研究提出一种基于可解释性监督的多模态动态融合框架——可解释自适应融合网络(eXplainable and Adaptive Fusion Network,XAF-Net),旨在实现模态间的均衡融合以提升自动驾驶环境感知的鲁棒性。该方法创新性地引入可解释性AI工具SHAP值,通过蒙特卡洛采样实时量化激光雷达点云与相机图像对检测结果的边际贡献,并设计梯度自适应机制,依据贡献度动态调节各模态在反向传播中的梯度幅度,优先优化贡献不足的模态。在KITTI和nuScenes数据集上的实验表明,本方法在常规场景下性能优异,车辆检测中等精度达86.3%;在nuScenes雨雾等恶劣天气下也表现出良好鲁棒性,整体平均精度均值(mean Average Precision,mAP)提升至52.4%,其中行人检测精度提高3.2%。消融实验进一步验证了各模块有效性,模态贡献均衡度由0.57提升至0.89。结论表明,引入可解释性监督能有效解决多模态融合中的模态失衡问题,显著增强三维检测模型在复杂场景下的适应性与可靠性。
关键词
三维目标检测;多模态动态融合;可解释性监督;SHAP值;梯度自适应机制
全文:
PDF参考
[1]薛培林,吴愿,殷国栋,等.基于信息融合的城市自主车辆实时目标识别[J].机械工程学报,2020,56(12):165-173.
[2]李昌财,陈刚,侯作勋,等.自动驾驶中的三维目标检测算法研究综述[J].中国图象图形学报,2024,29(11):3238-3264.
[3]李宇杰,李煊鹏,张为公.基于视觉的三维目标检测算法研究综述[J].计算机工程与应用,2020,56(01):11-24.
[4]周燕,许业文,蒲磊,等.自动驾驶场景下的图像三维目标检测研究进展[J].计算机科学,2024,51(11):133-147.
[5]谭光兴,陈海峰,吴程鹏,等.多模态融合下BEV特征增强的三维目标检测[J].计算机工程与设计,2025,46(10):3033-3041.
[6]田枫,宗内丽,刘芳,等.多模态融合的三维目标检测方法研究[J].计算机工程与应用,2024,60(13):113-123.
[7]张炳力,潘泽昊,姜俊昭,等.基于交叉注意力机制的多模态感知融合方法[J].中国公路学报,2024,37(03):181-193.
[8]王永强,徐林峰,陈炜.多模态数据下的目标检测与识别研究综述[J].工业控制计算机,2025,38(10):90-91+94.
[9]杨昊,张轶.基于上下文信息和多尺度融合重要性感知的特征金字塔网络算法[J].计算机应用,2023,43(9):2727-2734.
[10]吕艳辉,方亮.基于双线性插值的单目标检测算法[J].火力与指挥控制,2024,49(01):73-79+86.
DOI: http://dx.doi.org/10.12361/2661-3506-08-01-153779
Refbacks
- 当前没有refback。

