《人工智能辅助的数字媒体创作》通识系列教材 · 序章
引言:当创作遇见智能
我们正站在一个奇异而激动人心的历史节点上。2022年,一幅由AI生成的画作《太空歌剧院》在科罗拉多州博览会艺术比赛中击败人类艺术家夺得金奖;2023年,ChatGPT以两个月破亿用户刷新互联网历史;2024年,Sora横空出世,让"一句话生成电影"从科幻走入现实。AI不再只是工程师的专利,它正在重塑每一个创作者的工作方式。
作为AIGC领域的研究者与教育者,我深切感受到数字媒体创作正在经历自计算机图形学诞生以来最深刻的一次范式革命。过去的创作工具——Photoshop、Blender、Premiere——是人手的延伸;而今天的AI工具——Midjourney、Suno、Runway——正在成为创意的伙伴。
数字媒体创作的范式转变
让我们回顾数字媒体创作工具的演进历程:
工具时代(1990s-2010s):Photoshop、3ds Max等专业软件降低了门槛,但创作者仍需掌握复杂技术。这是"人指挥工具"的阶段。
模板时代(2010s-2020s):Canva、剪映等模板工具进一步降低门槛,但创意受限于预设框架。
AI时代(2020s-至今):扩散模型、大语言模型、神经辐射场等技术让创作者可以通过自然语言和直觉操作来生成内容。工具开始理解创作者的意图,并主动提供创意建议。
这种转变的核心在于人机关系的重新定义。AI不再是被动的画笔,而是能够参与创意构思、提供灵感激发、辅助技术实现的"创作伙伴"。
AI的技术基石
1. 生成对抗网络(GAN)
2014年由Ian Goodfellow提出,通过生成器与判别器的博弈训练让AI学会"以假乱真"。StyleGAN在面孔生成上的惊人表现首次让大众意识到AI也能创造。
2. 扩散模型(Diffusion Models)
当下AI图像生成的主流技术。核心思想类似"去噪":先给清晰图片逐步添加噪声直到模糊,再训练模型从噪声中恢复清晰图像。Stable Diffusion、DALL·E、Midjourney都基于此。
3. Transformer与大语言模型
Transformer架构不仅驱动ChatGPT等对话模型,其变体也被广泛应用于视频生成(Sora的DiT)、音乐生成、3D建模等领域。
4. NeRF与3D高斯泼溅
这两项技术让AI从2D照片重建3D场景,在三维模型生成、游戏场景、VR领域掀起革命。
本系列八大章节概览
本系列作为《人工智能辅助的数字媒体创作》通识课程配套教材,系统性覆盖AI在数字媒体创作中的八大应用领域:
第一章 · AI声音生成与编辑:Suno、ElevenLabs等——音乐与语音的AI革命
第二章 · AI图片生成与编辑:Stable Diffusion、Midjourney——从文字到图像的魔法
第三章 · AI视频生成与编辑:Sora、Runway——让创意动起来
第四章 · AI三维模型生成:3DGS、NeRF——从平面到立体
第五章 · AI动画生成与编辑:运动生成、角色动画——赋予角色灵魂
第六章 · AI人体姿态捕捉:姿态估计、动作迁移——让数字角色活起来
第七章 · AI游戏场景生成:程序化生成、关卡设计——一键构建虚拟世界
第八章 · AI交互媒体设计:互动艺术、实时生成——艺术与科技的双向奔赴
每章遵循"原理讲解 → 工具介绍 → 实践操作 → 案例分析 → 思政延展"结构。
如何高效学习
三维目标
★ 基础维度:了解主流AI工具及基本操作,独立完成简单创作。
★★ 进阶维度:理解技术原理,能对比选型,完成中等复杂度项目。
★★★ 高阶维度:整合多个AI工具形成工作流,参与学科竞赛,产出有思想深度的作品。
四项建议
带着项目学:每章完成一个小作品,从"一首诗配一幅画"开始。
保持批判思维:AI输出质量参差不齐,学会审美判断是创作者必备素养。
关注伦理边界:版权归属、虚假信息、文化挪用等议题融入各章思政维度。
拥抱跨学科:融合计算机科学、艺术设计、传播学——跨界才是核心竞争力。
结语:创作,从未如此自由
十多年前我第一次运行GAN生成一张模糊的32×32灰度图时已兴奋不已。而今天,没有编程基础的创作者可在五分钟内用自然语言生成配有原创音乐的精美短片。
但让我更感动的,是技术背后那个永恒不变的命题:人类对表达和创造的本能渴望。AI没有取代创作——它只是移除了横亘在创意与实现之间的技术壁垒,让更多人的想象力得以释放。正如摄影没有取代绘画,而是催生了印象派和现代艺术;AI也不会取代创作者,而是催生全新的艺术形式和审美范式。
我们所有人,都是这场伟大变革的亲历者和参与者。让我们开始这段旅程吧。
下一篇预告:第一章 · AI声音生成与编辑——从文本到旋律的魔法
作者:AIGC研究者与教育者 | 2026年6月