第8课:对抗生成与扩散生成——AI如何“创作”图像?
【学习目标】
1. 理解对抗生成网络(GAN)的核心原理与工作机制
2. 理解扩散模型的“加噪-去噪”原理
3. 能够分析图文语义对齐在“文生图”中的关键作用
4. 评价两种生成方式的优势与局限
【情境导入】
班级正在筹备“未来城市”主题海报设计活动。小华输入“悬浮列车穿梭于霓虹都市的街道上”,几秒就得到一幅图像,但细节略显粗糙;小明用另一款工具,等待近一分钟,得到的图像构图清晰、光影细腻。同样的文字指令,为什么生成效果差异如此明显?这背后反映的是两种截然不同的图像生成技术:对抗生成与扩散生成。
【知识大揭秘】
概念引入:两种图像生成的核心思路
对抗生成通过“相互博弈”来学习生成图像:生成器负责创作图像,判别器负责判断图像真假。扩散生成则通过“加噪-去噪”的规律学习来生成图像:先给清晰图像加噪,再学习如何从噪声中还原。
深度解析:GAN——“创作者”与“评审”的博弈
在训练初期,生成器生成的图像往往比较粗糙,容易被判别器识破。但随着对抗的持续进行,判别器的反馈会促使生成器不断改进,最终能够生成以假乱真的图像。当阈值提高时,生成达标图像的概率降低、耗时增加,但图像质量更高。
深度解析:扩散模型——从噪声中“雕刻”图像
扩散生成的核心逻辑是“加噪”和“去噪”的规律学习。在训练阶段,模型学习如何从噪声图像中逐步还原出清晰的原始图像。生成阶段时,模型从纯噪声图像出发,根据学到的规律执行“去噪”操作,逐步生成清晰的全新图像。迭代次数越多,图像质量越高。
案例时间:对抗生成思想的跨领域应用
对抗生成的“博弈优化”思想不仅用于图像生成。在药物研发领域,生成器像“药物分子设计师”提出化合物结构,判别器像“药理学家”筛选无效或不安全的化合物。在网络安全领域,生成器模拟黑客攻击,判别器作为“防火墙”识别威胁。
深度解析:图文语义对齐——让机器“理解”文字与图像的关联
图文语义对齐是“文生图”的关键技术。它的核心是让含义相近的文字和图像在语义空间里“拉近”。对齐前,文字“猫”与图像“汽车”的距离可能最近;对齐后,文字“猫”与图像“猫”的距离最近。
知识小结:两种生成方式的对比
对抗生成擅长快速生成,但训练不稳定;扩散生成图像质量更高、训练更稳定,但生成速度较慢。当前主流的文生图工具多采用扩散模型。
【AI看图学】

【动手练一练】
活动:对比体验两种图像生成方式
步骤:
1. 使用基于GAN的工具(如Artbreeder)生成图像,观察生成速度和质量
2. 使用基于扩散模型的工具(如即梦AI绘画)生成相同主题的图像
3. 对比两种工具的生成速度、图像质量、细节表现
4. 总结两种生成方式的优势与局限
工具/平台:工具/平台:Artbreeder、即梦AI绘画、豆包AI甛图
预期成果:预期成果:两种生成方式的对比分析表,包含生成速度、图像质量、细节表现等维度
【想一想·辨一辨】
1. 对抗生成的“博弈优化”思想可以应用到哪些非图像领域?试举一个例子。
2. 深度伪造视频可以用GAN技术生成。你认为应该如何防范这类技术的滥用?
【拓展阅读·前沿视窗】
了解当前最火的图像生成工具背后的技术:Midjourney、Stable Diffusion、DALL-E都基于扩散模型。AI美术设计师是新兴职业,他们将AI生成技术与艺术创意结合,创作出令人惊叹的视觉作品。
学完本课了?来检验一下学习成果吧!
🎯 去练习