焊接技术凭借其实现高强度和轻量化连接的优势,广泛应用于航空航天、核能及特种设备等行业。焊缝质量直接影响整体结构性能,无损检测(NDT)对确保焊接结构的可靠性和安全性至关重要。X射线检测利用材料对X射线吸收的差异,能够揭示工件的内外部结构及缺陷,在焊缝检测中得到广泛应用。X射线焊缝图像的缺陷评估通常依赖于检测人员的经验和判断,但人工评估效率低下,且易受主观因素影响,可能导致评估结果不一致。随着制造业向自动化和数字化方向发展,人工评估正逐渐被计算机辅助自动评估所取代,智能缺陷检测成为推动这一转变的核心技术。
焊缝缺陷的智能检测面临多项挑战。如图1所示,典型缺陷特征包括跨尺度变化、高密度、低对比度和重叠,对智能缺陷检测精度影响显著。缺陷尺度差异悬殊,例如航空航天结构件中气孔和夹渣缺陷的尺寸范围为0.1~1 mm,而未焊透缺陷的尺寸跨度为1~100 mm。在智能检测过程中,特征提取的多次下采样可能导致小缺陷特征丢失,降低小尺度缺陷的检测精度。同时,密集气孔和密集夹渣在空间上紧密分布,相邻缺陷的特征相互干扰,使精确识别变得困难。
未熔合和裂纹通常为面积型缺陷,在X射线图像中呈现低对比度,漏检风险较高。X射线图像反映的是射线沿路径的辐射强度衰减,多个缺陷可能重叠在同一位置,被遮挡的缺陷更难检测,漏检或误检的可能性增大。综合来看,这些缺陷特征构成了复合挑战,严重制约了缺陷目标检测模型的整体精度。
图1. 影响智能缺陷检测精度的焊缝X射线图像典型示例。
(a) 跨尺度,(b) 高密度,(c) 低对比度,(d) 重叠
针对焊缝X射线图像智能检测面临的挑战,研究人员提出了多种基于特征提取和模式识别的方法。Vilar等人使用图像处理识别焊缝和缺陷区域,提取几何特征,并采用人工神经网络(ANN)进行缺陷分类。Zap等人提出基于自适应网络的模糊推理系统,用于识别X射线图像中的焊缝缺陷。Kas等人提出基于倒谱的伽马射线图像缺陷检测方法,使用梅尔频率倒谱系数和多项式特征结合ANN进行特征匹配。Duan等人采用自适应阈值法检测潜在焊缝缺陷,并使用扩展AdaBoost进行多类缺陷分类。尽管取得了上述进展,但这些方法通常依赖针对特定数据分布手动设计的特征向量,泛化能力有限,往往仅在特定数据集上有效。
为解决特征提取不足的问题,一些研究引入卷积神经网络(CNN)来自适应提取焊缝X射线图像的关键特征。Liu等人将X射线图像转换为浮雕图像,使用三元组深度神经网络进行特征提取,并用支持向量机(SVM)进行缺陷分类。Sizyakin等人使用CNN对焊缝缺陷进行分类,并应用SVM识别缺陷边界。Yang Lei等人使用预训练的AlexNet提取X射线图像特征,采用SVM分类器结合Dempster-Shafer证据理论预测焊缝缺陷。然而,SVM等传统分类器不支持端到端训练,特征提取和分类相互独立,限制了性能优化。在大规模数据下,传统方法往往效率低下,无法充分发挥深度神经网络的优势。
另外,在工业X射线检测中,传统方法在缺陷智能识别方面鲁棒性较差,难以应对不同X射线检测工艺参数和工件下的缺陷识别问题。
近年来,基于深度学习的目标检测技术已成为X射线焊缝图像缺陷智能识别的重要工具。Oh等人采用Faster R-CNN自动检测造船中的焊缝缺陷。Liu等人通过引入通道和空间注意力机制改进Faster R-CNN,提升了检测性能。Chen等人引入挤压与位置注意力机制,并采用基于几何的数据增强来改善缺陷检测。Yang等人使用K-means聚类优化先验框设置,缓解了Faster R-CNN适应性差的问题。Yang等人将YOLOv5应用于钢管焊缝缺陷检测。Xu等人在YOLOv5模型中引入通道注意力机制、SIOU损失函数和FReLU激活函数以提高检测精度。Shi等人将小波多尺度注意力、并行采样模块和路径扩展聚合网络集成到YOLOv7模型中,提升焊缝缺陷检测性能。Kwon等人采用孪生模型检测不同尺寸和长宽比的焊缝缺陷。Wang等人提出目标放大网络用于检测焊接缺陷。然而,现有焊缝缺陷检测深度学习方法存在明显局限,主要表现为多尺度特征处理不足以及局部与全局特征之间缺乏交互。因此,现有基于深度学习的缺陷检测方法在应对复杂焊缝缺陷时存在明显局限,难以全面提升检测精度。
为解决无损检测中焊缝缺陷检测面临的挑战,本文提出了多尺度特征增强智能缺陷检测(MFE-IDD)模型。该模型通过增强局部与全局特征之间的交互来提升多尺度特征提取能力,同时高效整合和增强缺陷特征。本工作的主要贡献如下:
🔷 针对焊缝缺陷的多尺度特性,本文将CNN与Transformer融合,构建了统一特征提取框架,用于从X射线焊缝图像中提取特征。该设计能捕获图像中的长距离依赖关系和空间相关性,增强了多尺度缺陷特征的提取能力。
🔷 针对X射线焊缝图像中的低对比度和小尺度缺陷问题,本文设计了上下文增强模块(CAM)。该模块利用不同膨胀率的空洞卷积在多个感受野下提取特征,整合小尺度和低对比度缺陷的上下文信息,提高了焊缝缺陷的识别精度。
🔷 为增强缺陷特征表示与融合,本文提出了多尺度模块(MSM)。该模块采用多分支特征提取策略结合倒瓶颈模块和深度可分离卷积(DW-conv),利用大卷积核的优势,改善了小尺度和低对比度焊缝缺陷的特征表示,提高了复杂焊缝图像中缺陷的识别精度。
本文其余部分安排如下:第2节对本文所提出的网络架构进行详细介绍;第3节重点阐述数据采集与预处理、评估指标、实现细节和实验结果;第4节讨论算法在实际工程场景中的应用,包括高分辨率数字射线成像(DR)图像和数字化底片;第5节总结研究结论并展望未来研究方向。
图2展示了所提方法的整体框架,包含三个主要部分:特征提取主干网络、特征融合颈部网络和检测头部网络。主干网络采用由倒置残差移动块(iRMB)构建的高效模型(EMO)架构,用于增强长距离依赖和空间相关性的捕捉,以实现焊缝缺陷的多尺度特征提取,详见2.2节。颈部网络结合特征金字塔网络和路径聚合网络,实现多尺度特征融合。为进一步增强缺陷检测中多尺度特征的融合,颈部网络还集成了CAM和MSM,分别详见2.3节和2.4节。最后,头部网络负责输出缺陷类别、边界框坐标及对应的置信度分数。
图2. MFE-IDD总体框架
近期研究形成了一个共识:在浅层引入具有归纳偏置的CNN提取局部特征,在深层利用具有全局感知优势的Transformer捕获全局特征,这一策略被认为是提升模型性能的有效途径。针对焊缝缺陷的多尺度特性,本文将CNN和Transformer架构融合到X射线焊缝图像的统一特征提取框架中,捕获图像中的长距离依赖关系和空间相关性,增强了多尺度缺陷特征的提取能力。遵循这一设计原则,EMO骨干网络利用iRMB动态调整特征提取方式,如图3中iRMB范式所示。浅层激活CNN高效提取局部特征,深层切换为Transformer建模全局特征。
图3. 倒残差移动块范式
骨干网络中的iRMB为级联结构,包含扩展窗口多头自注意力(EW-MHSA)、集成跳跃连接的DW-conv以及收缩多层感知器MLPs。EW-MHSA在两种模式下运行:CNN模式和Transformer模式,由二值门g∈{0,1}控制。在CNN模式(g=0)下,EW-MHSA退化为具有扩展比λ的扩展多层感知器MLPe。在Transformer模式(g=1)下,输入特征图X先通过1x1卷积投影,沿通道维度分为两个分支,产生查询矩阵Q和键矩阵K,注意力图Mattn计算为softmax(Q*K)。
综合考虑两种模式,EW-MHSA的输出特征V可表示为:
V = (1-g) * MLPe(X) + g * MLPe(Mattn * X) (1)
最终,iRMB的输出特征XiRMB可表述为:
XiRMB = MLPs(DW-conv(V) + X) (2)
EMO由五组iRMB模块组成。前三层iRMB模块采用CNN模式提取详细的局部特征,第四和第五层利用Transformer捕获长距离依赖关系和全局特征。这种设计使方法能够提取焊缝X射线图像中缺陷的多尺度特征。
在焊缝X射线图像中,气孔等缺陷通常仅由几十个像素组成,小尺度缺陷目标的检测极具挑战性。针对X射线焊缝图像中的低对比度和小尺度缺陷问题,本次测试设计了上下文增强模块(CAM)。CAM利用不同膨胀率的空洞卷积在多个感受野下提取特征,整合小缺陷和低对比度缺陷区域的上下文信息。
图4. 上下文增强模块范式
CAM的结构如图4所示。给定输入特征图Y,分别应用三个不同膨胀率的空洞卷积提取不同感受野的特征,得到Fi(i=1,2,3)。每个Fi经1x1卷积精炼为F'i,三个精炼特征沿通道维度拼接形成F'。对F'应用1x1卷积输出三个通道,然后沿通道维度执行逐通道softmax,获得归一化权重,分割为三个单通道权重图Wi(i=1,2,3):
W1, W2, W3 = split(softmax(conv(F'))) (3)
最后,通过加权求和将不同感受野的特征进行组合,得到融合后的上下文特征F:F = W1⊙F1 + W2⊙F2 + W3⊙F3 (4)
其中⊙表示逐元素乘法。
由于缺陷尺寸差异显著且分布不均,跨尺度特征提取是一大难题。在缺陷检测任务中,尤其是面对尺寸跨度大的缺陷,多尺度特征提取对提升检测精度至关重要。为应对这一挑战、增强缺陷特征的表达与融合能力,我们提出了MSM。MSM采用多分支特征提取策略,结合倒置瓶颈块和深度可分离卷积(DW-conv),充分发挥大卷积核的优势。这一设计用于提升小尺寸、低对比度焊缝缺陷的特征表达,并在复杂的X射线焊缝图像中提高缺陷检测精度。MSM的详细结构如图5所示。
图5. 多尺度模块范式
各分支依次传递特征信息,计算可表示为:
Gj = { Z1, j=1; IBB(Gj-1+Zj), j=2,...,n } (5)
不同分支中的DW-conv使用不同的卷积核尺寸以实现多尺度特征提取。所有分支的编码特征随后沿通道维度拼接。最后,应用1x1卷积促进特征间的交互。
为验证所提算法的有效性,我们在专有的焊缝缺陷数据集上进行了全面实验。原始图像通过航空航天铝合金焊缝的DR检测获取,焊缝试件与航空工业合作专门制造,以满足研究和生产需求。图像使用自建的DR系统采集,实验装置示意图如图6所示。DR系统采用GE ISOVOLT320 X射线源,管电压范围为5~320 kV,管电流范围为0.1~45 mA,小焦点尺寸为0.4 mm,大焦点为1.0 mm。平板探测器为PerkinElmer XRD0822数字探测器,配备碘化铯闪烁体、1024x1024成像矩阵、200微米像素尺寸和16位ADC。
图6. DR实验装置示意图
为确保数据质量,多位射线检测专家逐像素仔细标注了焊缝DR图像中的缺陷,每项标注均经过严格审查以确保一致性。标注的缺陷类别包括气孔(PO)、夹渣(SL)、未焊透(LP)、未熔合(LF)和裂纹(CRK)。图7展示了焊缝DR图像中这些典型缺陷类型的示例。
图7. 缺陷类型
本研究使用的原始数据集包含512张焊缝DR图像。由于数据集规模有限,模型训练中存在过拟合风险,因此采用镜像、旋转和裁剪等数据增强技术,将数据集扩展至8899张DR图像。扩展后的数据集先以9:1的比例划分为训练验证集和测试集,训练验证集再以相同的9:1比例划分为训练集和验证集,以确保对模型性能的可靠评估。
图8展示了增强后焊缝DR数据集中各类缺陷的统计分布。图8(a)为缺陷数量分布,SL缺陷最多,有10426个实例,其次是LP缺陷5782个、PO缺陷5002个、LF缺陷3392个,CRK缺陷虽仅有697个实例,但属于关键缺陷类型。图8(b)为缺陷面积像素数分布,PO缺陷平均像素数为75,SL缺陷为161,两者在数据集中尺寸相对较小;CRK缺陷平均像素数为343;LF和LP缺陷面积较大,平均像素数分别为1786和4307。
图8. 缺陷统计分布。
(a) 缺陷数量,(b) 缺陷面积像素数
为全面评估MFE-IDD模型的性能,采用多种指标评估焊缝X射线图像中缺陷定位和分类的精度。主要指标包括AP50、mAP50、mAP50:95、召回率和mRecall。其中,AP50为IoU阈值为0.5时的平均精度(AP),mAP50为所有缺陷类别AP50的均值。召回率为IoU阈值0.5时正确检测数与实际缺陷总数的比值,衡量模型识别所有相关缺陷的能力,mRecall为所有类别召回率的均值。mAP50:95表示在0.5到0.95的多个IoU阈值下计算的平均精度均值。
IoU表示预测框boxpre与真实框boxtruth之间的重叠比例,其计算示意如图9所示,数学定义见式(6):
IoU = area(boxpre ∩ boxtruth) / area(boxpre ∪ boxtruth) (6)
图9. IoU计算说明
mAP50是公认较为稳健的指标,尤其在多类别缺陷检测任务中。mAP50:95对模型的检测和定位精度提出了更严格的要求。mRecall用于评估模型检测所有相关缺陷目标的能力,其提高直接意味着漏检减少。计算效率方面,采用浮点运算量(FLOPs)、参数量(Params)和每秒帧数(FPS)作为评估指标。
在超参数设置方面,使用随机梯度下降(SGD)优化器,学习率为0.01,动量为0.937,权重衰减为0.0005,批量大小为4。训练过程共200个epoch。所有图像均统一调整为640x640分辨率。EMO骨干网络在stage0-stage4中分别包含1、3、3、9和3个iRMB模块。MLPe块的扩展比分别设为1、2.0、2.5、3.0和3.5。CAM中空洞卷积的膨胀率设为(1,3,5),MSM中DW-conv的卷积核尺寸设为(3,5)。实验环境:Intel i9-10900X CPU,NVIDIA GeForce RTX 2080Ti(22 GB显存),Python 3.7.4,torch 1.10.0,CUDA 10.2。
3.4.1 与最先进方法的比较
为全面评估MFE-IDD算法在焊缝缺陷检测中的有效性,使用多种主流目标检测算法进行对比实验,包括Faster R-CNN、Sparse R-CNN、YOLOv3-tiny、YOLOv4-tiny、YOLOv5n、YOLOX-tiny、YOLOv7-tiny、YOLOv8n、YOLOv9-s、YOLOv10n、YOLOv11n、ViTDet和DINO-4scale。其中除Faster R-CNN和YOLOv5n外,其余11个模型均为首次应用于焊缝X射线图像缺陷检测。性能指标汇总于表1。
表1 不同算法的实验对比
由表1可知,MFE-IDD优于表现最佳的两阶段检测算法Sparse R-CNN,mAP50超出24.4%,mAP50:95超出24.8%,mRecall超出2.9%。与领先的单阶段算法YOLOv5n相比,MFE-IDD在mAP50上超出5.3%,mAP50:95超出8.9%,mRecall超出6.1%。MFE-IDD算法仅有5.3M参数,检测速度为57 FPS,在高精度与合理检测速度之间取得了良好平衡。
3.4.2 缺陷检测性能可视化
为评估模型对不同类别缺陷的检测能力,对mAP50排名前四的算法进行了可视化实验,结果如图10所示。对于小尺度PO缺陷,YOLOv3-tiny、YOLOv5n和YOLOX-tiny未能检测到部分实例,而MFE-IDD识别了所有缺陷。总体而言,MFE-IDD在检测小尺度缺陷方面优于其他算法,减少了漏检和误检。
图10. 不同模型缺陷检测性能的可视化比较。黄色虚线框突出显示部分缺陷的放大视图
3.4.3 各类别缺陷检测性能
MFE-IDD算法在所有五种缺陷类型上均取得了最高的AP50和召回率。其中,LP缺陷的AP50和召回率分别为99.3%和98.2%,LF缺陷分别为97.4%和96.2%,CRK缺陷分别达到98.5%和98.8%。对于PO缺陷,MFE-IDD的AP50和召回率分别比第二名模型YOLOv5n高出11.9%和13.3%;对于SL缺陷,AP50提高7.7%,召回率提高9.0%。详见表2。
表2 不同模型在五种缺陷类型上的AP50和召回率
3.4.4 消融实验
为评估CAM和MSM对MFE-IDD模型性能的影响,我们进行了消融实验,具体设计和结果见表3。实验中,基线模型指同时移除CAM和MSM的MFE-IDD。结果表明,各模块以不同方式提升了检测性能。具体而言,在颈部网络中集成CAM增强了上下文特征感知,强化了多尺度特征,使mAP50提升1.5%,mAP50:95提升1.7%,mRecall提升2.3%。同样,在颈部网络中引入MSM增强了特征表达能力,进一步优化了跨尺度特征融合,使mAP50提升1.0%,mAP50:95提升2.0%,mRecall提升2.3%。总体来看,所提MFE-IDD模型优于基线,mAP50从91.1%提升至93.4%,mAP50:95从52.1%提升至56.6%,mRecall从88.3%提升至91.4%。这些结果验证了所提模块在提升检测性能上的有效性。
PO和SL等缺陷由于平均尺寸较小,检测难度较大。如3.4.3节所述,PO和SL缺陷的识别精度普遍偏低,进而制约了检测模型的整体性能。为评估CAM和MSM在提升小尺寸缺陷识别上的效果,我们在不同模块配置下对PO和SL的检测结果进行了对比分析,采用AP50、AP50:95和召回率等指标,结果如图11所示。实验结果表明,无论是单独引入CAM还是MSM,PO和SL缺陷的检测指标均有不同程度提升。具体而言,CAM对缺陷区域周围的上下文信息进行建模,为模型提供更丰富的空间关联特征,弥补了小缺陷局部信息不足带来的识别困难,提高了检测精度。MSM则通过多尺度特征融合,充分整合不同层级的特征,使模型兼顾全局结构与局部细节,进一步增强了小尺寸缺陷的特征表达,提升了检测性能。值得注意的是,当CAM和MSM同时引入时,PO和SL的检测指标达到最优,说明二者的协同效应对小尺寸缺陷的检测性能有积极影响。综上,CAM和MSM的引入有效缓解了现有模型在特征层面对小尺寸缺陷检测的局限,明显提升了平均尺寸较小缺陷的检测精度,推动了模型整体性能的进一步提升。
表3 CAM和MSM的消融实验
图11. 不同模块配置下PO和SL的AP50、AP50:95和召回率比较
为研究CAM中不同膨胀率和MSM中不同DW-conv卷积核尺寸对检测性能的影响,设计了多组参数组合的对比实验,结果如图12所示。当MSM采用卷积核尺寸(3,5)且CAM使用膨胀率(1,3,5)时,模型达到最高mAP50:95为56.6%。实验结果表明,CAM中采用较小膨胀率(1,3,5)、MSM中使用较小卷积核尺寸(3,5),更有利于增强MFE-IDD模型捕获小尺寸缺陷特征的能力。
图12. CAM不同膨胀率和MSM不同卷积核尺寸下的模型性能
为评估不同分支数量对检测性能和模型复杂度的影响,进行了系统对比实验,结果如表4所示。三分支配置实现了93.4%的mAP50、最高的mAP50:95为56.6%和最高的mRecall为91.6%,参数量为5.3M,FLOPs为53.3G,在精度与效率之间取得了最佳权衡。
表4 不同分支数量MSM架构的比较
高分辨率DR图像细节精细,在工业无损检测中具有重要价值。本研究评估了MFE-IDD模型在此类图像中的工程应用潜力。实验数据使用自建的微焦点DR系统采集,配备FineTec 225 X射线源和NDT 1717 M非晶硅平板探测器,像素尺寸为139微米×139微米,成像矩阵为3072×3072。使用a第3.1节数据集训练的模型直接用于高分辨率DR图像的缺陷检测,结果如图13所示。YOLOv5n在识别小缺陷时存在漏检和误报,YOLOX-tiny在检测SL缺陷时出现漏检和分类错误。相比之下,MFE-IDD模型展现出精细的缺陷检测性能,具有较强的适应性和显著优势。
图13. 不同算法在高分辨率DR图像中的缺陷检测结果
胶片摄影技术在某些工业检测领域仍具有重要应用价值。本研究探索了MFE-IDD模型在数字化底片图像缺陷检测中的应用。共收集346张核电焊缝原始数字化图像,通过数据增强将数据集扩展至4209张。模型微调时,使用焊缝DR数据集上的预训练权重作为初始参数,微调epoch减少至100,初始学习率设为1e-3。微调后的模型检测性能详见表5,MFE-IDD模型的mAP50为94.0%,mAP50:95达到62.6%,mRecall为92.2%,整体性能显著优于其他模型。
表5 微调模型检测性能比较
为直观展示缺陷检测结果,使用一组核电焊缝数字化底片图像进行了对比实验与可视化分析,结果如图14所示。三个模型均能检测出PO、SL、LP、LF和CRK五种缺陷类型,但YOLOv5n和YOLOX-tiny在遇到伪缺陷时产生误检,而MFE-IDD没有,表明其检测精度更高。实验结果表明,微调后的模型在实际工程应用中的缺陷检测精度和鲁棒性均得到显著提升。
图14. 不同算法在数字化底片图像中的缺陷检测结果
为解决焊缝X射线图像中低对比度和小尺度缺陷导致的检测精度低、漏检率高的问题,本文提出了MFE-IDD缺陷检测模型。骨干网络融合CNN与Transformer架构,捕获长距离依赖关系和空间相关性,实现多尺度缺陷特征的高效提取。颈部网络引入上下文增强模块和多尺度模块改善多尺度特征融合,显著增强了不同尺度缺陷特征的上下文信息和表示能力。实验结果表明,MFE-IDD模型检测性能优异,mAP50达到93.4%,mAP50:95达到56.6%,平均召回率达到91.4%。值得注意的是,难度较大的小尺度PO缺陷检测性能显著提升,AP50超过最佳主流工业目标检测模型11.9%,召回率超过13.3%。同时,MFE-IDD模型采用轻量化设计,仅有5.3M参数,检测速度达57 FPS。
MFE-IDD模型对高分辨率DR图像的泛化能力已在实际工程应用中得到验证,结果表明模型对高分辨率DR图像具有较好的适应性。对MFE-IDD模型进行微调以适应数字化底片的特定特征后,模型在此类图像中的缺陷检测精度和鲁棒性均显著提升。
综上所述,MFE-IDD模型在DR图像焊缝缺陷检测中表现出色,特别适用于航空航天、核能及特种设备等工业领域。我们在接下来的工作中将重点关注新型轻量化注意力机制、整体架构和部署的协同优化,在降低计算和内存开销的同时保持精度,以提高低功耗设备在高分辨率X射线图像上的推理速度。后续还将扩充焊缝缺陷数据集以增强样本多样性,提升模型的检测能力和泛化能力。此外,我们将探索迁移学习和感兴趣区域定位技术,以应对工程应用中的实际挑战,推动模型在工业场景中的广泛落地。
论文引用:Lingling Liu , Chenxuan Hu , Zhipeng Liu , Yan Xiong , Lingfeng Wu *, Bo Ao *.Multi-scale feature fusion-enhanced intelligent defect detection for X-ray weld images using CNN-Transformer.Measurement 258 (2026) 119182.
DOI:https://doi.org/10.1016/j.measurement.2025.119182.