第8课：对抗生成与扩散生成——AI如何“创作”图像？

初中九年级免费学习

【学习目标】

1. 理解对抗生成网络（GAN）的核心原理与工作机制

2. 理解扩散模型的“加噪-去噪”原理

3. 能够分析图文语义对齐在“文生图”中的关键作用

4. 评价两种生成方式的优势与局限

【情境导入】

班级正在筹备“未来城市”主题海报设计活动。小华输入“悬浮列车穿梭于霓虹都市的街道上”，几秒就得到一幅图像，但细节略显粗糙；小明用另一款工具，等待近一分钟，得到的图像构图清晰、光影细腻。同样的文字指令，为什么生成效果差异如此明显？这背后反映的是两种截然不同的图像生成技术：对抗生成与扩散生成。

【知识大揭秘】

概念引入：两种图像生成的核心思路

对抗生成通过“相互博弈”来学习生成图像：生成器负责创作图像，判别器负责判断图像真假。扩散生成则通过“加噪-去噪”的规律学习来生成图像：先给清晰图像加噪，再学习如何从噪声中还原。

深度解析：GAN——“创作者”与“评审”的博弈

在训练初期，生成器生成的图像往往比较粗糙，容易被判别器识破。但随着对抗的持续进行，判别器的反馈会促使生成器不断改进，最终能够生成以假乱真的图像。当阈值提高时，生成达标图像的概率降低、耗时增加，但图像质量更高。

深度解析：扩散模型——从噪声中“雕刻”图像

扩散生成的核心逻辑是“加噪”和“去噪”的规律学习。在训练阶段，模型学习如何从噪声图像中逐步还原出清晰的原始图像。生成阶段时，模型从纯噪声图像出发，根据学到的规律执行“去噪”操作，逐步生成清晰的全新图像。迭代次数越多，图像质量越高。

案例时间：对抗生成思想的跨领域应用

对抗生成的“博弈优化”思想不仅用于图像生成。在药物研发领域，生成器像“药物分子设计师”提出化合物结构，判别器像“药理学家”筛选无效或不安全的化合物。在网络安全领域，生成器模拟黑客攻击，判别器作为“防火墙”识别威胁。

深度解析：图文语义对齐——让机器“理解”文字与图像的关联

图文语义对齐是“文生图”的关键技术。它的核心是让含义相近的文字和图像在语义空间里“拉近”。对齐前，文字“猫”与图像“汽车”的距离可能最近；对齐后，文字“猫”与图像“猫”的距离最近。

知识小结：两种生成方式的对比

对抗生成擅长快速生成，但训练不稳定；扩散生成图像质量更高、训练更稳定，但生成速度较慢。当前主流的文生图工具多采用扩散模型。

【AI看图学】

【动手练一练】

活动：对比体验两种图像生成方式

步骤： 1. 使用基于GAN的工具（如Artbreeder）生成图像，观察生成速度和质量 2. 使用基于扩散模型的工具（如即梦AI绘画）生成相同主题的图像 3. 对比两种工具的生成速度、图像质量、细节表现 4. 总结两种生成方式的优势与局限

工具/平台：工具/平台：Artbreeder、即梦AI绘画、豆包AI甛图

预期成果：预期成果：两种生成方式的对比分析表，包含生成速度、图像质量、细节表现等维度

【想一想·辨一辨】

1. 对抗生成的“博弈优化”思想可以应用到哪些非图像领域？试举一个例子。

2. 深度伪造视频可以用GAN技术生成。你认为应该如何防范这类技术的滥用？

【拓展阅读·前沿视窗】

了解当前最火的图像生成工具背后的技术：Midjourney、Stable Diffusion、DALL-E都基于扩散模型。AI美术设计师是新兴职业，他们将AI生成技术与艺术创意结合，创作出令人惊叹的视觉作品。

学完本课了？来检验一下学习成果吧！

🎯 去练习

第8课：对抗生成与扩散生成——AI如何“创作”图像？