《人工智能辅助的数字媒体创作》· 第二章
引言:一幅画改变世界对AI的认知
2022年8月,游戏设计师Jason Allen用Midjourney生成的画作《太空歌剧院》夺得科罗拉多州博览会艺术比赛金奖,引发全球轰动。无论你是支持还是质疑,这一事件标志着AI图像生成正式进入主流视野。从那时起,Stable Diffusion、DALL·E、Midjourney三大平台引领了一场"文生图"革命。这一章,我们将深入探索AI如何重新定义"作画"这一古老的人类行为。
第一节:人工智能与图片的关系
从像素处理到语义理解
传统的图像处理软件(如Photoshop)操作的是像素:亮度、对比度、色相、饱和度。而AI图像生成引擎操作的是语义:理解"一只穿着宇航服的柴犬在月球上行走"这句话的含义,并创造出对应的视觉。
核心技术:从GAN到扩散模型
GAN时代(2014-2021):StyleGAN生成逼真人脸,BigGAN生成多样物体。优势是生成速度快,劣势是训练不稳定、多样性有限。
扩散模型时代(2022-至今):从随机噪声出发,通过逐步"去噪"还原出符合文字描述的图像。Stable Diffusion、DALL·E 2/3、Midjourney均基于此。优势是多样性高、可控性强,但生成需要多次迭代。
关键概念:Latent Space与条件控制
Latent Diffusion:不像传统扩散模型直接在像素空间操作,Stable Diffusion在压缩后的"潜空间"(latent space)进行扩散,极大降低了计算成本。
CLIP引导:OpenAI的CLIP模型负责理解文本描述,将文字编码为模型可用的条件信号,指导扩散方向。
ControlNet:在Stable Diffusion基础上增加额外的控制条件(如边缘检测图、人体骨骼图、深度图),实现精确的构图控制。
第二节:如何使用AI生成和编辑图片
三大主流平台对比
提示词工程:从入门到精通
一个好的图像生成提示词(Prompt)是创作成功的关键。以Midjourney为例,推荐结构:
[主体描述] + [环境/场景] + [艺术风格] + [光照/色彩] + [构图/视角] + [画质参数]例如:
A young Chinese woman in traditional Hanfu, standing in a bamboo forest at sunrise, ink wash painting style, soft golden light filtering through leaves, misty atmosphere, full body shot, 8K, masterpiece --ar 3:4 --v 6图片编辑:超越生成
Inpainting(局部重绘):选中图像中的某个区域,用文字描述替换内容。如"把背景中的汽车换成喷火龙"。
Outpainting(扩展画布):在图像边缘外扩展内容,AI自动补全。适合将竖版图片扩展为横版。
Image-to-Image(图生图):输入一张参考图作为基础,AI根据文字描述进行风格迁移或细节调整。
Remove Background(去背景):AI自动分离主体和背景,精确度远超传统抠图工具。
课程思政:AI技术在中国山水画创作中的探索
中国山水画讲究"外师造化,中得心源",追求的不是客观复现,而是意境的传达。AI在这一点上展现出惊人的契合度——扩散模型天然具有一种"模糊美学",与中国画的"似与不似之间"有着精神上的共鸣。
近年来,不少中国数字艺术家开始用Stable Diffusion训练专属的中国山水画模型。他们不是简单地让AI模仿古画,而是用现代的视角重新诠释传统。例如,用"赛博朋克 + 千里江山图"生成的作品,既保留了中国青绿山水的色彩体系,又融入了未来主义元素,成为传播中国文化的新媒介。
这提醒我们:AI不是让传统消亡的威胁,而是让传统焕发新生的机遇。关键在于,操控AI的人是否有足够的文化自觉和审美素养。
本章小结
AI图像生成从GAN进化到扩散模型,实现了从"像"到"美"的跨越
三大主流平台各有侧重:Midjourney重审美、SD重可控、DALL·E 3重理解
好的提示词 = 主体 + 场景 + 风格 + 光照 + 构图 + 参数
AI不仅是生成工具,更是图片编辑利器(Inpainting、Outpainting、去背景)
AI与中国传统艺术的碰撞,不是替代,而是创新融合
课后练习:使用任意AI绘图工具,以"中国传统元素+未来主义"为主题创作一幅作品,附200字创作思路。
下一篇预告:第三章 · AI视频生成与编辑——让创意动起来
作者:AIGC研究者与教育者 | 2026年6月