高永杰、吕欣：生成式AI技术进化与图像艺术生产范式革新

2024-2-16 15:26| 发布者: 刘海明| 查看: 123| 评论: 0|原作者: 高永杰、吕欣|来自: 现代传播

摘要: 生成式AI图像工具近年来获得持续性的技术突破，引发了图像的视觉语言、真实性、审美方式等多层面变化，而且还深刻重构了图像的生产范式。

内容摘要：

生成式AI图像工具近年来获得持续性的技术突破，引发了图像的视觉语言、真实性、审美方式等多层面变化，而且还深刻重构了图像的生产范式。数十年来围绕计算机生成图像的技术迭代与生产方式变化，形成了机器学习—程序生成、黑箱操作—受控随机、人机交互—合作共创的图像范式变革。其影响在于未经过专业训练的用户可以通过生成式图像模型快速生成高质量的视觉作品；网络上海量的图像数据被重新组织分类用于AI训练，使图片版权名存实亡；社会偏见可能会渗透到AI的创作过程之中。如果有足够的训练数据和算力，AI发展会形成涌现与飞轮效应，AI程序终将获得智力、意识乃至情感，此时AI有可能获得生产的主体性，并能创作出属于机器自身的图像。

关键词：

生成式AI；图像生产范式；生成美学

得益于计算机硬件算力的大幅提升、云计算技术的加速升级、 AI 生成式算法的不断突破以及大语言模型的不断成熟，合力推动 AI 技术从可感知、理解信息的专用 AI ( ANI ）发展阶段快速跃迁至可生成、创造信息的通用 AI 阶段。快速革新的生成式 AI 技术正在从创作工具、创作流程、艺术语言、艺术形态、艺术风格等多个层面重构着图像的生产范式。本文在艺术史背景下选择性地考察了数十年来围绕计算机生成艺术的技术迭代与创作方式变革、机器自主创作与艺术家角色等主题内容，并尝试回答图像生产范式革新如何发生这一关键问题。

一、引论：一个历史遗留问题

伴随着"埃德蒙．贝拉米肖像"( Portrait of Edmond Belamy ,2018）在佳士得被高价拍卖、《太空歌剧院》( Theatre D ' opera Spatial ,2022）在美国科罗拉多州艺术博览会上获一等奖、《虚妄记忆：电工》( PSEUDOMNESIA : The Electrician ,2023）获得"2023年索尼世界摄影奖（ SWPA "创意类别优胜奖以及文本一图像生成模型 Sta - ble Diffusion 的开源，引发了当代学术界对生成式图像的高度关注。生成式图像艺术中的技术迭代与生产范式革新、机器自主创作、艺术家角色以及版权与伦理等问题都被重新提出。"重新"的说法在于，以上问题都可以称之为"历史遗留问题"，因其大多数问题都已经在计算机生成艺术的早期发展阶段被广泛讨论。 AI 艺术的潜在哲学问题是历史问题，但是生成式 AI 技术正在由此推动着早期的"计算机生成艺术"向着更为成熟的"生成式图像艺术"演化，促使人们在更高的层面反思图像生成艺术的本质，及其所蕴含的哲学问题。

"生成艺术是指艺术家将控制权交给一个具有功能自主性系统的艺术实践，该系统间接或直接完成艺术作品。该系统包括自然语言指令、生物或化学过程、计算机程序、机器、自组织材料、数学运算和其他程序发明。"可见，并非而早期的计算机生成艺术特质可以归纳为排列、随机和分形。因此，生成式图像艺术与早期计算机生成艺术具有强连接关系，它可以被界定为是早期计算机生成艺术的延续。法比安·奥费尔特（Fabian Offert）甚至指出："早期的计算机艺术为当代AI艺术提供了缺失的理论框架。"②詹姆斯．贝利（James Bailey）曾建议用生成式 AI 艺术（GAI-Art）这个术语来概括当前使用AI生产的艺术，这也说明贝利认可早期计算机生成艺术与生成式图像艺术的传承关系。③

其实，在生成式图像艺术工具出现之前，就有艺术家利用 AI 程序作画了。20 世纪 70年代，算法艺术的先驱艺术家哈罗德．科恩(Harold Cohen）就创造电脑程序"AARON"进行绘画创作。科恩先设计出图像，然后编程，让程序控制机械臂在画布上绘画。科恩强调计算机的"自主决定的能力"，这已经超出了普通计算机艺术而进入到生成式图像艺术的范畴了。

仿真AI艺术家"Ai-Da"，是一个拥有机械臂、外形酷似人类的机器人（如图1所示）。她用机械臂绘画，还配置了和人类对话的智能程序及发声器，可以边作画边与绘画对象攀谈。

以上绘画程序多是利用机械臂模仿人类的绘画动作和过程来完成绘画的。显然，后期的生成式图像艺术走得更远，因为它略去了"绘画"的物质材料和动作本身，直接生成图像。然而，生成式图像艺术与其他图像艺术生产相比，如绘画、摄影，其艺术创新与技术迭代具有更紧密的联系。

二、AI技术进化路径与生成式图像艺术创新

纵观生成式图像的技术发展，其重要的技术里程碑包括：生成式对抗网络（Generative Adverse-rial Network,GAN)、深梦（Deep Dream)、神经风格迁移（Neural Style Transfer,NST)、创意对抗网络(CAN,Creative Adversarial Networks)、DALL·E.对比文本一图像预训练模型（Contrastive Lan-guage-Image Pre-Training,CLIP)、扩散化模型(Diffusion）和ControlNet模型。生成式图像艺术的发展类似于摄影和电影的发展，它从纯粹的技术演示开始，经历模仿更传统的媒介阶段，最终凭借其独特性成为一种媒介艺术。

（一）GAN到CAN：由模仿到创造

神经风格迁移（NST）是触发AI在生成式图像艺术领域快速使用和发展的标志性技术之一。它主要用于分离或合成内容图像的内容及风格参考图像的风格。在计算机视觉语境中，内容和风格可以用一种相当直接和简单的方式来理解。内容指向可识别的物体和图形，风格意味着从照片般逼真的内容描绘中获得有美感的或有趣的视觉偏差。NST方法是使用神经网络将艺术风格从风格参考图像应用到内容图像，以输出用风格参考图像风格绘制的内容图像。它为用户提供了一个简单的图像处理框架，无疑是自动图像处理领域中一个非常有趣的技术贡献。尽管NST有潜力以创造性的方式应用于图像创作，但使用其方法制作的风格化图像通常是对输入图像的叠加组合，并不同于原始和独特的艺术创作。鉴于组合形式的无限性，艺术家组合两个内容和风格相匹配的图像以产生有美感、有创意的输出图像，作为一件新颖的艺术品在技术上确实具有极大挑战性。

第一个对生成式图像艺术做出重大贡献的技术革新是生成式对抗网络（ GAN )。 GAN 的核心理念是让两个内部程序"生成器（ genera - tor )"和"鉴别器（ discriminator )"互相对抗输出图像。生成器负责生成逼真的图像，鉴别器负责分析图像的真假。生成器试图学习数据分布，通过随机噪声作为输入，并产生逼真的图像。鉴别器试图辨别样本是来自真实的数据集，还是由生成器生成的。它采用反馈机制来促使生成器生成更逼真的图像。"埃德蒙．贝拉米肖像"和马里奥．克林格曼（ Mario Klinge - mann ）的生成式图像艺术作品就是利用 GANs 模型生成的。然而， GANs 模型存有明显的缺陷：第一，较难控制输出图像，容易产生较大的视觉偏差；第二，输出图像的分辨率比较低；第三，由于鉴别器要判断产生的图像和训练集中的图像是否是同一类别，这就决定了输出图像仅是对现有作品的模仿，而非真正的创新。

为了使GANs模型在创造性方面更进一步，2017年，Facebook联合罗格斯大学和查尔斯顿学院艺术史系三方创作了创意对抗网络（CAN)。与GAN类似，CAN同样具有两个对抗程序：鉴别器和生成器。鉴别器使用大量不同艺术风格的作品来学习区分风格，生成器从随机输入中生成图像。但与 GAN 不同之处是在生成器上面增加了一个信号，避免让生成器生成与现有数据集过于类似的内容，目的是在艺术范围内最大限度地偏离数据集中的既定风格，创造出与经过训练的图像相似但又不完全相同的图像。玛丽安·马佐尼（ Marian Mazzone ）和艾哈迈德．埃尔加马尔（ Ahmed Elgam - mal ）认为 CAN 是一个"几乎自主的艺术家"，他们的论点是 CAN 系统使用西方各种经典流派和风格的图像来模拟艺术家吸收艺术史的过程，而且它最终输出的图像代表了模仿和偏离现有风格之间的最佳点。一方面，避免与训练数据集重复，另一方面，避免产生太新的结果，使生成的图像变得无法辨认。因此， CAN 使用"风格模糊性"实现新颖性。它不再局限于模仿数据集，而是学习并偏离既定的艺术风格，展示出真正的创造力。

埃尔加马尔等人还进行了一项视觉图灵测试，以探索人们是否能够区分 CAN 生成的作品和人造艺术品。结果显示，有75％的参与者认为 CAN 生成的图像是由人类艺术家制作的。然而，乔（ Joo - Wha Hong ）和纳撒尼尔·明．柯伦（ Nathaniel Ming Curran ）认为埃尔加马尔等人进行的研究使用了不到20名参与者，并直接询问参与者作品是由人类还是机器创作的，这可能会引入偏见。乔和柯伦利用288名参与者进行实验来研究他们对人类和 AI 作品的感知①，调查结果显示，参与者对人类和 AI 创作的艺术作品的评价存在明显差异，人类创作的艺术作品在"构图""面画表达"和"美学价值"等方面评分明显更高。由此，作者得出结论， AI 艺术尚未通过艺术的图灵测试。不论结果如何，CAN 已展现出不同于GAN仅限于模仿的功能局限，而是具有了艺术创造性的生成能力。它在模仿的基础上打破了旧有规则甚至引入新规则，以产生新的艺术风格。但是，CAN 在产生之初仅限于一些抽象表达，就艺术性而言，还远远达不到人类艺术家的水准。

（二）CLIP + Diffusion模型：跨模态生成

文本一图像跨模态生成器的出现真正将生成式图像艺术普及到大众领域。2021年1月， OpenAI 推出的 DALL . E 可以通过文本描述生成图像。同时， OpenAI 开源了深度学习模型 CLIP ，它是一种用文本作为监督信号来训练可迁移的视觉模型。 CLIP 模型拥有强大的特征抽取能力，它使用从互联网上收集的4亿个文本一图像对进行训练，可以将图像和任意的文本联系起来，有效解决了图像和文本的匹配度问题，比如，它可以把猫的图像和"猫"这个词完全对应起来。虽然 CLIP 功能强大，但似乎和创作没有直接关系，直到瑞恩·默多克（ Ryan Murdock ）把 BigGAN 连接到 CLIP 上，打造了一个 AI 文本一图像生成器： CLIP + VQGAN 。然而， GANs 作为生成模块存在的输出图像分辨率低的问题在 CLIP + VQGAN 模型中依然存在，而扩散化模型的出现则解决了这一问题。因为扩散化模型的本质是对生成图像进行多次"去噪"，减少无关干扰，使其变得越来越清晰，而这个过程就被称为"迭代"。每次迭代， AI 都会利用其图像识别技术，依据文本提示对现有的图像扩散化模型进行评估，并提供下次迭代的"方向"，由此，图像会和文本提示的匹配度越来越高，图像也会越来越精细。第一个基于 CLIP + Diffusion 模型的实用化生成式图像工具是 Disco Diffusion ，尽管它可以生成高质量图像，但问题是生成过程需要更多的时间和更高的电脑配置。罗宾．罗巴赫（ Robin Rombach )等人提出一种在潜空间上进行扩散过程的方法，从而大大减少计算复杂度，同时也能达到高分辨率的图像生成效果。③2022年3月，机器学习研究机构 LAION 开源了跨模态数据库 LAION -5B，包含近60亿（5.85 Billion ）个文本一图像对，可以用来训练所有从文本到图像的生成模型。 LAION 还训练 AI 根据艺术感和视觉美感给图片打分，并把高分的图片归进一个 LAION - Aesthetics 的子集。事实上，生成式图像工具 Stable Diffusion 就是利用 LAION - Aesthetics 这个高质量数据集训练出来的。因此，除去高分辨率，Stable Diffusion 在艺术感和视觉美感上也有极大的提升。2023年3月，谷歌还提出了一种文本一图像新模型Muse，进一步提升了生成效率。Muse在保持图像生成质量和不降低对输入文本语义理解能力的基础上，比Stable Dif-fusion v1.4生成快2倍。据开发团队介绍，Muse由于使用离散标记并且需要更少的采样迭代使效率显著提高。②

AI生成技术连续出现了突破性进展，从GAN到CAN，从CLIP模型开源到与生成式图像模型嫁接，然后使用扩散化模型作为图像生成模块，最后使用潜空间降维的改进方法解决了生成时间和内存资源消耗巨大的问题，而近期的Muse模型通过减少采样迭代进一步提升了生成效率，ControlNet 模型的出现则加强了 AI绘画的可控性。具体技术的持续性突破不仅提高效率，而且引发了艺术层面的持续性创新。因为，生成式图像艺术的一个潜力是通过机器学习并提炼全世界的艺术成果和人类艺术想象力，赋予每一位艺术创作者。可以说，AI引入艺术领域一个全新的问题：它提供的不再是源源不断的沃尔特．本雅明（Walter Benjamin）所谓的复制品，而是独特的艺术品。这促使我们重新思考 Midjourney、Stable Diffusion 等生成式图像工具所能触达的艺术高度如何革新图像艺术生产范式。

三、生成式图像艺术生产范式革新

生成式图像艺术颠覆了传统图像艺术的生产范式，因为计算机程序获得了生成图像的权力，这迫使我们重新思考人类和机器创造的本质。相比传统绘画创作，艺术家需要品鉴大量优秀艺术作品，学习技法和理论，积累绘画经验，以形成独特的艺术审美，并通过创作进行艺术表达；相比摄影创作，摄影师需要掌握相机功能及使用，学习捕捉光线和构图方式以及后期编辑完成表达。而生成式图像艺术则基于其强大的机器学习能力，利用深度神经网络来模仿人类学习绘画和摄影的过程。然而，机器学习不同于人类对艺术史的学习，因为图像中的元素如点、线、面、构图、光影、色调、虚实、肌理、笔触等，对于 AI 来说，都不是重点，因为它们都是由红、绿、蓝三个颜色通道组成的像素矩阵。此外，在生成式图像艺术的创作中，机器学习取代了传统艺术家对前人艺术作品的品鉴、临摹、吸纳和模仿的过程，随机化程序生成和人机共创取代了艺术家的亲自绘制或拍摄。为了更加深入理解生成式图像艺术的创作本质，有必要在艺术史的背景下探索其生产范式革新。

（一）机器学习﹣程序生成

生成式图像的概念主要指基于深度学习模型的计算机程序直接生成图像。其创作过程可以理解为：程序通过其强大的计算和学习能力分析数据集中的艺术成果，从中总结出规律，再经由艺术家给出的生成文本进行有机组合生成图像。2022年8月，在美国科罗拉多州艺术博览会上，一幅名为《太空歌剧院》的画作在数字艺术类别比赛中一举夺冠（如图3所示），但因该画作是由游戏设计师杰森．艾伦（ Jason Allen ）使用 Midjourney 生成，引来了不少艺术家的指责，他们认为这存在"作弊"嫌疑。创作者被质疑"作弊"是因为他不需要亲自绘制作品。其创作过程就是创作者不断调整生成文本和参数，比如"一个穿着维多利亚时代连衣裙且头戴太空头盔的女人""华丽"等词语，然后由 Midjourney 生成图像，最后，创作者经过900多版调整，耗时80小时反复尝试最终做出画面选择。

2023年4月，"索尼世界摄影奖（ SWPA )"揭晓，德国摄影师鲍里斯·埃尔达森（ Boris El - dagsen ）的黑白摄影作品《虚妄记忆：电工》赢得了创意类别优胜奖。画面中有两名女性，年长的女性抓住了年轻女性的肩膀躲在其背后，年轻女性的胸前有一只男性的手，画面有些诡异。然而，埃尔达森却公开表示，这幅作品是由 Dall . E 2生成的，并拒绝接受该奖项。当下， AI 程序，如 Midjourney 、 Dall . E 2，可以根据用户提供的信息，模拟不同设备的摄影效果，然后生成图像，例如" shot on Canon 5D4 with 50mmf1.4"，此处包含的信息有：相机型号为佳能5D4,50mm焦段与 fl .4光圈。生成的图像，无论是构图、光影、景物还是人物形象，几乎达到了以假乱真的程度，甚至能够依据年份的描述生成相对应的照片质量与风格，比如20世纪90年代的"胶片感"。以上两个事例说明：生成式图像艺术作品可以媲美人类顶尖艺术家，以及 AI 可以生成以假乱真的摄影作品。

艺术家将生成图像的权力交给机器，由机器自行阐述信息，这不同于人类和机械臂的绘画方式，它略去绘画的物质材料和动作本身；也不同于摄影师的创作方式，它略去场景选择、相机参数调试和拍摄动作，直接生成图像，这促使图像艺术的创作逻辑转向生成美学。玛格丽特. A .博登（ Margret A . Boden ）和欧内斯特·埃德蒙兹（ Ernest A .）写道："在音乐和视觉艺术中，（生成艺术）这个术语的使用现在都集中在那些通过激活一套规则而产生的作品，以及至少让计算机系统接管部分决策的作品。""相对于传统的艺术创作模式，生成式图像艺术的过程不必经由艺术家之手亲自创作，而是由程序生成。艺术家提供生成文本，调试、修改参数，选择最终画面。这种"选择一指定"的艺术逻辑与马塞尔·杜尚（ Marcel Duchamp ）的现成品艺术相似。杜尚选择一个小便池宣称它是艺术，这不仅否定了它作为艺术品的独特性，而且也否定了艺术必须经艺术家之手创作的必要性。作为概念艺术之父，杜尚忽视了艺术制作过程，而是强调艺术家的概念或想法是其关键要素。贝利讲道："（杜尚）拿起一个小便池，将其翻转过来，为其创造了一个新的思想'，迫使我们考虑它是否是艺术。 AI 艺术翻转了这一点，不仅为对象创造了一个新的思想，而且创造了一个能够为人类做一些思考和创造的对象。"

尽管艺术家不再像往常一样面对空白画布开始作画，而是由程序直接生成画面。但艺术家仍然需要具有高超的艺术敏感性、丰富的软件辅助作图经验和绘画功底，对于艺术史、不同绘画流派、不同艺术家的作品特征也要信手拈来，不同参数的微调也可胜任，还可以导入草图帮助 AI 更好地理解生成文本以便获得高质量的构图和配色，甚至还可以通过后期调整补绘细节等。因此，程序生成图像并不代表降低了艺术家的艺术敏感性，也不能否定艺术家的创造性劳动。

（二）黑箱操作﹣受控随机

伊娃．采蒂尼奇（ Eva CetiaZnic ）和詹姆斯．佘（ James She ）在谈到 AI 艺术的新颖性时讲道："当前的大多数 AI 艺术作品都可以理解为是对'潜在空间'进行采样的结果。也许AI艺术最新颖的方面是，可以冒险进入编码图像表示的抽象多维空间。从艺术家角度来看，潜在空间既不是现实的空间，也不是想象的空间，而是从已知和未知的多维互动中产生的无尽暗示的领域。如何编排这个空间的设计以及在其中发现什么，最终成为艺术家的主要任务和独特'标志'。""从技术角度看，大多数与计算机结合的图形艺术都包含随机参数，而且参数的变化会带来无法预料的结果。首先，生成式图像艺术的生成过程仍然是"黑箱操作"，不到图像最终呈现出来，都无法知道作品的样貌。其次，每次生成都起始于一个随机的初始噪点，尽管给定的生成文本相同，但是生成的图像并不相同（在Stable Diffusion中，通过调整大模型、VAE、正反提示词、种子、各种参数，可实现生成相同的图像）。此外，AI生成的随机性也会带来意想不到的视觉效果，甚至会产生人类思维之外的图像。穆拉哈里．雷迪（ Murahari Reddy ）等人研究发现，" DALL . E 还具有将不同的想法结合起来合成对象的能力，其中一些不太可能存在于现实世界中""。我们可以粗略地理解为 AI 观察、感知、过滤和阐释世界的方式与人类不同，它试图认识日常事物，并"学会观察"和表现这个世界。在此过程中， AI 提供给我们的是观看世界的"机器视角"。爱丽丝·巴拉勒（ Alice Barale ）指出：" AI 艺术的最新元素：为了理解我们用自己的眼睛看到的东西，我们必须倾听另一种主观性，考虑其他'眼睛'。"" AI 带来的观看世界的"机器视角"以及其"发现"的"不太可能存在于现实世界的"和意想不到的图像让我们重新感知现实世界。

机遇与生成性计算机程序一起发挥作用一﹣这一趋势似乎将继续下去。""而且，多林也认为，"机遇和动态过程有潜力继续成为未来艺术的主导性创作力量""。而生成式图像艺术的创作实际上也是一种受控随机的过程，随机性也是其创作过程中重要的创新性元素。马里奥．克林格曼（ Mario Klingemann ）甚至强化随机性和"错误"来创作以便产生更具创新性的作品（如图5所示）。他讲道："有些人试图服药来做到这一点﹣﹣以建立更荒谬的联系。但机器可以让你有力激发这一点。因为它比人类大脑更容易出现故障或偏离轨道。在这个过程中，经常会发生一些意想不到的有趣的事情。""为此，克林格曼还开发了一个他称之为神经故障的技术。"通过随机更改、删除或交换训练有素的 GAN 来操纵和训练另一个 GAN 。由于神经架构结构复杂，以这种方式引入的故障发生在语义层面上，导致模型以有趣的方式误解输入数据，其中一些可以解释为对自主创造力的一瞥。"

（三）人机交互﹣合作共创

"埃德蒙．贝拉米肖像"在佳士得以43.25万美元的价格拍卖售出。这是一幅穿着黑色衣服的绅士的模糊肖像（如图6所示）。其底部有一个类似于数学公式的签名，其实，它是生成作品的关键算法公式，而非人类签名。该作品的算法并非由" Obvious "团体创造，而是由 AI 艺术家罗比．巴拉特（ Robbie Barrat ）创造的。因此，" Obvious "团体被指控"窃取"了巴拉特在网上分享的算法。当一件作品以如此出乎意料的高价售出时，谁有权从出售中获利成为一个非常关键的问题，由此引发了大众对 AI 与艺术家在创作中扮演角色的思考。

AI艺术运动似乎与传统的艺术市场和体制格格不入。历史的趋势是宣扬艺术家，而在AI艺术宣传中，艺术家却被隐藏在AI的光环背后。其实，将AI比作"自主艺术家"的宣传同样来自艺术市场的驱动，比如贝拉米肖像的拍卖会，佳士得拍卖行理查德．劳埃德（Rich-ard Lloyd）甚至将其称为"一件完全由算法实现的艺术品""。因为，对算法自主性的强调，以及拟人化语言的运用，可以极大地激起公众对AI作品的兴趣。然而，将AI系统描述为自主艺术家和 AI 自主创造艺术的说法是不负责任的。这暗示了对人类能动性的放弃和对人类劳动的抹杀并且会误导人们认为这些系统具有类似人类的属性，如智力和情感等。生成式图像艺术，表面上看，是机器运行的结果，而非人类感知和创造的结果。然而，实际上，AI并不能共享所有人类的艺术灵感或创作意图，也无法复制人类的生活体验，更无法像人类艺术家那样创造艺术。麦科马克（McCormack）在回答"谁是AI艺术作品的作者？"时写道，"存在将软件系统视为合法作者的先例，但AI系统没有被艺术世界或普通公众广泛接受为作者"。菲利普·格兰特（ Philip Galanter )＠同样认为，当下的 AI 不能被视作艺术品的作者，因为 AI 仍然依赖于程序员给定的创作方向、技术、内容和美学来学习、探索和生成作品。尽管创作者输入的生成文本确实带给 AI 更大的创作空间，但是，与所有生成艺术一样，生成式图像艺术在很大程度上是由人类指导驱动的，其机器学习、图像识别、算法生成依然无法离开人类的参与和人类的智慧：首先，生成式图像的程序是由程序员和艺术家共同完成的；其次，机器学习使用的素材仍然是人类创造的。 AI 融合了无数艺术家的艺术结晶，甚至是全人类的智慧，其构图、色彩、笔触和风格特征均来自浩瀚的人类艺术史，可以说，它是人类艺术史上无数艺术家的集体创造。吉恩．科根（ Gene Kogan ）将机器学习视为"捕捉人类共同认知天赋""集体无意识"或"集体想象力"的工具。"最后，思想观念的加入、数据集的选择、模型的训练以及参数的调试、修改和画面效果的补充等步骤，仍然需要人类创作者全程的参与和把控。

因此， AI 程序在作者身份方面与早期的计算机生成艺术没有本质区别，它仍然不能被称之为独立的作者。但是， AI 也不再仅仅是作为艺术的技术性载体，而是艺术家的合作者。因为，生成式图像艺术的全新创作方式重构了创作主体，人类负责提供信息， AI 程序负责生成图像，艺术家将生成图像的权力交给 AI ，这促使艺术家和 AI 共同成为新的创作者。其创作方式可以归为人机交互一合作共创。其核心是一种集体创作：工程师、艺术家、数据集艺术家、机器和算法之间的协同合作。人类和机器各供所长，逻辑性和思考的深度以及对人性的洞察是人类艺术家的专长。相比之下， AI 的思维更偏向广度和随机性，它更擅长搜索和链接海量的信息源，通过快速计算去解锁更多排列组合以便带来更多新的艺术可能性。

沃尔特．本雅明在《机械复制时代的艺术》中指出，技术再现性解构了创造性范式，因为它导致了艺术作品"灵韵"的消失。爱丽丝．巴拉勒则进一步指出：" AI 艺术将这一过程向前推进了一步：它不仅解构了我们对'绝对'创造者的概念，而且证明了创造力总是产生于与某种绝对'他者'的关系。在这种情况下，创造力来自人和机器之间的相互作用。"2这种人机反馈机制从根本上改变了图像艺术的创作方式，这意味着生成式图像艺术作品形成的关键因素是人机交互，即机器和人类之间的互动比机器本身的生成过程更重要。乔安娜．兹林斯卡（ Joanna Zylinska ）指出，要了解 AI 对创意领域的前景，我们不能只局限在美学领域。相反，我们需要处理人类在当前技术设置中的角色和位置。艺术家必须理解 AI 如何"推理"，并相应地改变它的行为。在人机交互中，艺术家仍然为核心角色。

四、结语

AMI 小组的领导者布莱斯．阿古拉．伊．亚克斯（ Blaise Aguera y Arcas ）认为 AI 艺术是一种新的前卫艺术，它必将改变我们对艺术的看法："就像应用颜料、印刷机、摄影和计算机的发明一样，我们相信机器智能是一项深刻影响艺术的创新。……从近期来看，它将扩展我们对外部现实以及我们感知和认知过程的理解"。过去几年，生成式对抗网络（ GANs ）主导了生成式图像艺术领域。最近，多模态生成模型、 ControlNet 等持续性的生成技术进化引发了图像艺术本体层面的创新、生产范式的革新，以及受众审美感知方式的变化，甚至带来了一些负面影响。

首先，未经过绘画、摄影等专业艺术训练的用户可以通过生成式图像模型快速生成高质量的视觉作品。鉴于生成式图像艺术背后的运作逻辑是 AI 系统通过学习海量的图像数据，对图像产生一定趋向性认识，继而从已有的图像中提取数字特征，捕捉各种风格和技巧，再应用到全新图像生成过程。因此，在机器学习技术和自动编码技术等自动化智能生成技术加持下，即使是未经过艺术训练的使用者，在 Midjourney 中输入一串提示词，也可以收获一张高水平作品。甚至，用户还可以借助 AI 工具生成伪装成现实图景的虚假摄影图像，让受众误以为深度伪造的图像就是真实的摄影图片。而且有可能在极短的时间内形成舆论场的大规模聚集，营造出一种虚假的社会共识。2023年3月，在国外的社交平台上一则"突发：特朗普今早在曼哈顿被捕！"的推文迅速引爆全网，同时爆出众多"特朗普被捕的现场照片"，甚至清晰地记录下了"特朗普整个被捕的过程"。然而实际上，这些照片只不过是网站贝灵猫（ Bellingcat ）的创始人艾略特．希金斯（ Eliot Higgins ）利用 AI 制成的假照片。虽然对了解 AI 领域的人来说，一眼便可辨别照片的真假，但并不是每个人都理解 AI 的发展速度，用户在快速浏览社交媒体界面时，由于照片看起来相对真实，用户容易信以为真并受到蒙骗。

多模态技术的发展使伪造摆脱了单一媒介形态易被监测的缺陷，伪造也不再局限于简单的文字信息，从二维图像生成到三维点云数据处理，再到数字虚拟人合成技术，深度伪造技术正逐渐走向成熟。此外，制作高质量、貌似真实的虚假信息的生成式摄影图像不需要具备高技术和实验室级别的操作，只需要开源的生成式 AI 工具即可实现，这使得没有任何技术技能和艺术专长的用户也能换脸、改变表情和合成图像。对于公众而言，摄影和视频技术的发展让眼见为实已经成为人们辨别真相的一种手段。但是深度伪造的生成式图像本质上打破了视觉客观性的共识，更是打破了能指和所指的统一性。 Midjourney V5.2在深度伪造图像方面已经达到以假乱真的程度，生成的图像无论是在细节复杂度还是纹理质感方面均十分逼真。在此，虚假和真实的界限不断消解。这种多模态内容带来的视觉欺骗对新闻媒体的真实性、可信性等方面造成了不同程度的破坏。同时，随着生成式图像技术的快速发展，深度伪造将颠覆真相和生成机制，人类在被欺骗的同时也面临着权利的侵犯以及身体的物化，尤其是换脸应用技术带来人脸的物化。如果不对生成式伪造图像及时进行数字监管，它将会带来整个社交媒体乃至人类社会信任体系崩塌的风险。

其次，网络上海量的图像数据被重新组织分类用于 AI 训练，使图片版权名存实亡。杰西卡 L .吉洛特（ Jessica L . Gillotte ）的文章《 AI 生成艺术作品中的版权侵权》和安德烈斯．瓜达穆兹（ Andres Guadamuz ）的文章《机器人梦想拥有电子版权吗？ AI 生成作品的原创性比较分析》"都讨论了生成式图像艺术中的侵权行为。保罗．托多罗夫（ Paul Todorov ）也认为，"哪些是真正的 AI 艺术作品，哪些是抄袭"仍然难以界定。因为，生成式图像艺术侵权的根本问题在于其创作方式，一个不能忽略的关键问题是训练 AI 的数据来源。部分训练数据可能包括受版权保护的图像，在这种情况下，最终输出结果可能涉及其他艺术家的艺术贡献。

最后，社会偏见可能会渗透到 AI 的艺术创作过程之中。拉姆雅·斯里尼瓦森（ Ramya Srinivasan ）探索了生成式图像艺术产生偏见的原因。首先，生成式图像艺术模型的训练数据集大多数都是从网络上直接搜集而来。它不可避免地会延续嵌入在网络内容中的偏见，有时还会放大偏见，有时又会成为刻板印象的生成器。其次，这种偏见可能来自前期训练 AI 的研发人员。一方面，受到研发人员的偏好影响，这些数据集涉及的样本数量可能不够均衡。另一方面，注释者拥有不同的偏好和文化，给数据集打标签的过程中可能存在标准不一致的情况，这些差异可能会在他们创建的标签中得到反映。"

当下的生成式 AI 尚不能被视作独立作者，因为生成式图像艺术仍然离不开人类的判断、纠偏、强化和解释。人类创作者的智力、学识、情感、激情决定了如何与 AI 互动并创造艺术。尽管不同形式的创造性智能是可能的和可探索的，但算法程序等生成系统体现的是人类持续累积的创造力，仍然不能被定义为是艺术家，因为它们没有体现出人类的社会性和认知能力，最重要的是人类创造艺术的动机。此时，生成式图像艺术的创作方式为人机共创，但是它仍然属于人类的艺术。然而，在AI研究中，对智能的预期总是基于这样一种信念，即如果有足够的训练数据和算力，AI发展会形成涌现与飞轮效应，AI 程序终将获得智力、意识乃至情感。对人类来说，机器意识仍然是一个悬而未决的问题。我们不应该始终站在人类中心主义的视角对AI做出评判。当AI发展出智力与情感，进入到超级AI 发展阶段时，AI有可能会成为"自主艺术家"，并可能创作出属于"机器自身的艺术"。

【责任编辑：潘可武】

来源：现代传播（公众号）

链接：https://mp.weixin.qq.com/s/5ARhxTde8ba3EBPFhp9bRQ

编辑：徐思凡