当前位置：首页>南昌>南昌大学团队!光电融合生成对抗网络:面向 AIGC 的衍射光学计算

南昌大学团队!光电融合生成对抗网络:面向 AIGC 的衍射光学计算

2026-06-02 10:13:47

南昌大学研究团队在《Communications Physics》发表研究成果，提出光电生成对抗网络（Optoelectronic Generative Adversarial Networks, OE-GAN），将衍射光学计算与经典生成对抗网络架构深度融合，构建光电混合式生成模型。该方案充分利用光场高速并行、低功耗的计算特性，有效破解传统全电子 AIGC 模型算力开销大、能耗高的痛点，同时解决了现有光学生成模型训练不稳定、高维建模困难等问题，为光计算与生成式人工智能的交叉研究提供了全新技术路径。

一、研究背景：AIGC的困境与光学计算的潜力

生成式对抗网络（GAN）作为 AIGC 核心框架，已广泛应用于图像生成、图像修复、内容创作等领域。但传统全电子 GAN 依赖大规模矩阵运算与迭代训练，存在算力需求庞大、运行能耗居高不下的问题，大幅提升了落地与规模化部署成本。

衍射光学网络（DON）凭借光天然的并行传输、光速运算优势，成为低功耗光学计算的主流方案，目前在图像分类、目标识别等判别式任务中已取得成熟进展。

然而，现有光学计算架构应用于生成模型仍存在明显短板：一是难以实现条件约束下的定向生成；二是高维数据建模能力不足；三是易出现模式崩溃、对抗训练梯度消失等问题，制约了光学技术在 AIGC 领域的发展。

针对上述瓶颈，本研究结合光学并行计算能力与电子系统灵活调控、精准训练的优势，设计光电混合架构的 OE-GAN，实现光学推理与电子训练协同工作，兼顾计算效率、能耗表现与模型稳定性。

二、OE-GAN整体架构与核心原理

为了突破现有技术的瓶颈，南昌大学的研究团队提出了光电生成对抗网络（OE-GAN）。这一创新架构基于生成对抗网络（GAN），巧妙地将光学计算的并行处理能力与GAN强大的表征学习能力相结合，充分发挥了光学和电子计算的优势。

（一）网络整体架构

OE-GAN 采用光电分离式对抗架构，由衍射光学网络构成光电生成器、多层感知器（MLP）构成电子判别器，沿用 Wasserstein GAN 训练机制，引入 Wasserstein 距离度量生成样本与真实样本的数据分布差异，从算法层面抑制梯度消失与模式崩溃，适配光电混合系统的训练特性。

光电生成器
以堆叠式衍射模块为核心，承担主要推理计算任务，依托光衍射、相位调制实现大规模并行运算，保障推理速度与低能耗特性；
电子判别器
基于全连接 MLP 搭建，负责数据分布判别、误差反向传播与全局参数优化，完成整个网络的迭代训练。

系统运行模式分为两个阶段：训练阶段由电子单元主导完成对抗学习；推理阶段仅保留光电生成器工作，绝大部分运算通过光场传播完成，仅保留基础数据流控制，最大化发挥光学计算效能。

（二）光电生成器工作机制

输入噪声图像经光学调制单元完成光场编码后，逐层进入堆叠衍射模块执行计算。核心流程：

1、光场经过预设相位调制，完成光学卷积与线性变换；

2、调制光束经自由空间衍射传播，实现衍射神经元的特征映射；

3、利用光电效应完成光 - 电信号转换，实现神经元激活运算；

4、对特征像素施加权重与偏置运算，结合小型后置神经网络完成误差补偿与性能优化，最终由读出层输出生成结果。

（三）实验系统搭建

实验平台以衍射处理单元为基础，依托光学硬件实现大规模神经元运算。整套装置包含激光器、光束扩束系统、空间光调制器、偏振器件、中继透镜与图像采集相机；采用树莓派实现硬件时序控制、电子信号中继与结果读出。系统具备可重构特性，可支持百万级光学神经元并行计算，满足实时运算要求。

三、实验设计与性能验证

研究选取无条件图像生成、条件图像生成、图像恢复三类典型生成任务，基于 MNIST、Fashion-MNIST 公开数据集开展全面测试，采用弗雷歇初始距离（FID）、均方误差（MSE）作为定量评价指标，同时对比全电子 GAN、CNN-GAN 等主流模型的综合性能。

（一）无条件图像生成

以 4×4 随机二进制噪声矩阵作为输入，采用无监督学习模式训练网络，学习数据集内在分布特征。

MNIST 数据集：引入电子中继的模型 FID 为 116.76，无电子中继模型 FID 为 131.24，证实电子中继结构可有效优化生成质量；
Fashion-MNIST 数据集：模型 FID 为 144.54，可精准复现服装轮廓、灰度纹理等细节特征。
同等参数量条件下，OE-GAN 综合表现优于传统全电子生成对抗网络，同时具备良好的迁移学习能力，预训练模型可快速适配全新任务与数据域，降低二次训练成本。

（二）条件图像生成

构建条件型 OE-GAN，引入类别标签作为约束，实现指定类别图像定向生成。实验结果显示：MNIST 数据集 FID 为 117.15，Fashion-MNIST 数据集 FID 为 137.51。条件约束未造成生成质量下降，样本类别辨识度高，可满足图像编辑、定向样本生成等实际应用需求。

（三）图像恢复任务

通过原图与随机噪声叠加生成遮挡受损图像，测试模型图像重建能力。实验测得：MNIST 数据集平均 MSE 为 0.023，Fashion-MNIST 数据集平均 MSE 为 0.018。该架构无需额外增设编码网络，即可完成高遮挡率图像修复，鲁棒性显著。