南昌大学研究团队在《Communications Physics》发表研究成果,提出光电生成对抗网络(Optoelectronic Generative Adversarial Networks, OE-GAN),将衍射光学计算与经典生成对抗网络架构深度融合,构建光电混合式生成模型。该方案充分利用光场高速并行、低功耗的计算特性,有效破解传统全电子 AIGC 模型算力开销大、能耗高的痛点,同时解决了现有光学生成模型训练不稳定、高维建模困难等问题,为光计算与生成式人工智能的交叉研究提供了全新技术路径。
生成式对抗网络(GAN)作为 AIGC 核心框架,已广泛应用于图像生成、图像修复、内容创作等领域。但传统全电子 GAN 依赖大规模矩阵运算与迭代训练,存在算力需求庞大、运行能耗居高不下的问题,大幅提升了落地与规模化部署成本。
衍射光学网络(DON)凭借光天然的并行传输、光速运算优势,成为低功耗光学计算的主流方案,目前在图像分类、目标识别等判别式任务中已取得成熟进展。
然而,现有光学计算架构应用于生成模型仍存在明显短板:一是难以实现条件约束下的定向生成;二是高维数据建模能力不足;三是易出现模式崩溃、对抗训练梯度消失等问题,制约了光学技术在 AIGC 领域的发展。
针对上述瓶颈,本研究结合光学并行计算能力与电子系统灵活调控、精准训练的优势,设计光电混合架构的 OE-GAN,实现光学推理与电子训练协同工作,兼顾计算效率、能耗表现与模型稳定性。
为了突破现有技术的瓶颈,南昌大学的研究团队提出了光电生成对抗网络(OE-GAN)。这一创新架构基于生成对抗网络(GAN),巧妙地将光学计算的并行处理能力与GAN强大的表征学习能力相结合,充分发挥了光学和电子计算的优势。
OE-GAN 采用光电分离式对抗架构,由衍射光学网络构成光电生成器、多层感知器(MLP)构成电子判别器,沿用 Wasserstein GAN 训练机制,引入 Wasserstein 距离度量生成样本与真实样本的数据分布差异,从算法层面抑制梯度消失与模式崩溃,适配光电混合系统的训练特性。
- 光电生成器以堆叠式衍射模块为核心,承担主要推理计算任务,依托光衍射、相位调制实现大规模并行运算,保障推理速度与低能耗特性;
- 电子判别器基于全连接 MLP 搭建,负责数据分布判别、误差反向传播与全局参数优化,完成整个网络的迭代训练。
系统运行模式分为两个阶段:训练阶段由电子单元主导完成对抗学习;推理阶段仅保留光电生成器工作,绝大部分运算通过光场传播完成,仅保留基础数据流控制,最大化发挥光学计算效能。
输入噪声图像经光学调制单元完成光场编码后,逐层进入堆叠衍射模块执行计算。核心流程:
1、光场经过预设相位调制,完成光学卷积与线性变换;
2、调制光束经自由空间衍射传播,实现衍射神经元的特征映射;
3、利用光电效应完成光 - 电信号转换,实现神经元激活运算;
4、对特征像素施加权重与偏置运算,结合小型后置神经网络完成误差补偿与性能优化,最终由读出层输出生成结果。
实验平台以衍射处理单元为基础,依托光学硬件实现大规模神经元运算。整套装置包含激光器、光束扩束系统、空间光调制器、偏振器件、中继透镜与图像采集相机;采用树莓派实现硬件时序控制、电子信号中继与结果读出。系统具备可重构特性,可支持百万级光学神经元并行计算,满足实时运算要求。
研究选取无条件图像生成、条件图像生成、图像恢复三类典型生成任务,基于 MNIST、Fashion-MNIST 公开数据集开展全面测试,采用弗雷歇初始距离(FID)、均方误差(MSE)作为定量评价指标,同时对比全电子 GAN、CNN-GAN 等主流模型的综合性能。
以 4×4 随机二进制噪声矩阵作为输入,采用无监督学习模式训练网络,学习数据集内在分布特征。
- MNIST 数据集:引入电子中继的模型 FID 为 116.76,无电子中继模型 FID 为 131.24,证实电子中继结构可有效优化生成质量;
- Fashion-MNIST 数据集:模型 FID 为 144.54,可精准复现服装轮廓、灰度纹理等细节特征。同等参数量条件下,OE-GAN 综合表现优于传统全电子生成对抗网络,同时具备良好的迁移学习能力,预训练模型可快速适配全新任务与数据域,降低二次训练成本。
构建条件型 OE-GAN,引入类别标签作为约束,实现指定类别图像定向生成。实验结果显示:MNIST 数据集 FID 为 117.15,Fashion-MNIST 数据集 FID 为 137.51。条件约束未造成生成质量下降,样本类别辨识度高,可满足图像编辑、定向样本生成等实际应用需求。
通过原图与随机噪声叠加生成遮挡受损图像,测试模型图像重建能力。实验测得:MNIST 数据集平均 MSE 为 0.023,Fashion-MNIST 数据集平均 MSE 为 0.018。该架构无需额外增设编码网络,即可完成高遮挡率图像修复,鲁棒性显著。
相较于传统全电子生成模型,OE-GAN 将矩阵运算迁移至光场衍射过程,大幅降低硬件算力负载与运行能耗;相较于纯光学生成模型,光电混合架构有效解决了训练不稳定、条件生成能力弱等缺陷。结合光学系统实时并行的特性,该技术可落地于多个领域:
1、医疗影像处理
实现医学影像快速修复、病灶样本生成扩充,辅助临床诊断与数据集构建;完成图像重构、人脸补全等任务,提升安防系统复杂场景适应能力;依托高速生成能力,支撑实时内容创作、场景渲染等 AIGC 应用。受当前光学硬件分辨率限制,实验样本分辨率仍有提升空间,但整套系统的功能有效性与技术可行性已得到充分验证。
当前 OE-GAN 仍处于原理验证阶段,后续可围绕架构、硬件、算法三大维度持续优化:
1、优化衍射模块结构与相位设计,进一步降低 FID 指标,提升高分辨率图像生成能力;
2、迭代光学硬件系统,提升器件集成度与成像分辨率,推进小型化、片上集成设计
3、结合新型光学材料与可重构相位器件,拓展模型动态适配能力,探索动态权重调控光学生成网络;
4、拓展多模态生成能力,将架构延伸至视频、文本 - 图像跨模态生成等复杂 AIGC 任务。
https://doi.org/10.1038/s42005-025-02081-6免责声明
本公众号所分享的文献内容均来源于公开出版的学术资源,旨在为读者提供学习与交流的便利,不涉及任何商业用途。我们尊重每一位作者的知识产权,若无意中侵犯了您的权益,请及时与我们联系,我们将第一时间核实并处理。感谢您的理解与支持!