娱乐圈八卦2024年10月12日发布:AI绘画的发展历史(GAN、diffuion、VAE……)

⭐发布日期:2024年10月12日 | 来源:娱乐圈八卦

⭐作者:提顶·玛哈由踏纳 责任编辑:Admin

⭐阅读量:250 评论:5人

【二四六蓝月亮大全全年资料】

【澳门4949资料免费大全】

【新奥六开彩资料2024在哪下载】 【新澳门资料大全免费新】 【澳门精准免费资料大全聚侠网】 【2024澳门今天晚上开什么生肖啊】 【管家婆一肖资料大全019期】 【奥彩网站准确资料查询大全】 【奥门管家婆一肖一码100精准】 【澳门六开彩资料免费大全今天】
【香港二四六资料大全微厂一】 【2024天天彩澳门资料免费大全年】 【2024澳门管家婆结果】 【2024新澳门正版资料免费大全】 【新奥天天免费资料东方心经】 【2024澳门免费正版资料】 【2024澳门天天开好彩资料】 【4949澳门精准资料大全】

除了使用工具外,可能很多同学也想了解这些生图工具的原理,演进历史等,那本篇文章主要为大家介绍一下AI生图的历史以及目前部分主流的网络模型运行机制。

随着像midjourney、stable diffusion、DALL-E 这些生图模型的问世,越来越多的同学开始用上了AI生图工具,类似文章配图,文章封面这类创作场景都可以直接用AI产出的图片,可以说节省了成本的同时提供了很大的便利。

一、20世纪70年 AARON AI绘画问世

最早的AI绘画追溯到20世纪70年代,艺术家哈罗德·科恩(Harold Cohen)发明了AARON,AARON最大的一个特点就是通过机械臂输出作画的,当然这套机器的背后也是通过计算机程序围绕规则和算法驱动的,下面为大家展示一些AARON绘画的作品:

图片风格有点像我上小学那会儿学科课本上的插画样式带点抽象风格,90年代的”AARON”已经能够使用多种颜色进行绘画,并在三维空间中创作,AARON的迭代改进持续了几十年,直到今天它还仍然在创作。

2006年, 出现了一个类似ARRON的电脑绘画产品 The Painting Fool. 它是伦敦大学金史密斯学院的计算机创作学教授Colton的作品,它可以观察照片, 提取照片里的块颜色信息, 使用现实中的绘画材料如油漆, 粉彩或者和铅笔等进行创作,Painting Fool作品如下:

以上都是属于“古典”的AI绘图模型,我们现代的AI绘画属于基于深度神经网络基础上产生的,最早也要追溯到2012年吴恩达训练出的能生成“猫脸”的模型。

二、2012年模糊的猫脸

2012年,谷歌的吴恩达和Jeff Dean使用深度学习模型,基于大量猫脸图片训练出了一个能够生成模糊猫脸的模型,这标志着AI绘画的一个重要起点,他们使用了他们使用了1.6万个CPU核心和来自YouTube的一千万张猫脸图片,进行了为期3天的训练,成功训练出了一个能够生成模糊猫脸的深度神经网络模型,通过模型生成的猫脸图像参照下面这张图:

尽管生成的图像质量并不高,但这个实验标志着深度学习在图像生成领域的一个重大进步。它证明了深度学习模型能够学习到图像的复杂特征,并用于生成新的图像内容。这个实验使用了卷积神经网络(CNN),这是一种特别适用于图像识别和处理的深度学习架构。这个模型在之前的介绍GPT中的神经网络演进历史有讲到过,这篇文章就不再详细介绍了。

三、2014年生成式对抗网络(GAN)

2014年,加拿大蒙特利尔大学Ian Goodfellow等人提出的生成对抗网络算法为AI绘画带来了新的发展,它本质上是通过生成器和判别器的对抗过程来生成图像,下面详细介绍它的训练原理:

上述图中有两个模型:生成器和判别器,这两个模型分别都有一个目标,对于生成器来说,它的目的是让自己生成的图能够骗过判别器,让它认为这张图就是原始数据库中的真实图片而非模型生成的,这种情况下输出结果越趋近于1(1为真)就能说明生成模型效果越好;对于判断器来说,它的目的是有效地辨别出生成器生成的图片,这种情况下输出结果越趋近于0(0为假)就能说明判别模型效果越好;这样的话就形成了所谓的对抗(GAN),一个想让生成结果更趋向于1,一个想让生成的结果更趋向于0,生成的结果数值会给到两个模型和训练目标比对(一个目标是0,一个目标是1)后分别进行Fine tune(优化模型参数);那什么情况下算是训练好了呢?这里就有一个纳什均衡的概念,就是说当输出的结果无限趋近于0.5,0和1的中间值那么就算是把这个生成器训练完了。这个时候生成器生成的图片效果无限逼近于原始图了。

我们现在熟知的Midjourney底层就是基于GAN模型。

四、2015年 谷歌的Deep Dream

2015年,谷歌推出了”深梦”(Deep Dream)图像生成工具,尽管它更像是一个高级滤镜,但它也标志着AI绘画技术的进步,我们可以先看一下Deep Dream生图的效果:

上面那排是原始训练的数据集,下面那排是Deep Dream 生成的像梦境般的迷幻图。

Deep Dream原理:

假设输入图像是X,这个输入图像可以是随机噪音,也可以是一个图像。把这个图像输入到卷积神经网络中,它输出的结果是各个类别的概率,这里卷积神经网络就是一个分类机器,怎样得到Deep Dream图像呢?需要指定一个标签。比如想要生成海星状的图像,就需要把目标标签指定为海星,然后通过海星和预测结果的类别之间的误差,反向传播到输入图像,去优化输入的图像X,如果优化后的X通过卷积神经网络后得到的海星标签的概率很高,那么就得到了类似海星的图像。

注意:这里调整的是输入图像的像素值而不是卷积神经网络。在Deep Dream项目中,用到的卷积神经网络的参数是固定的,调整的仅是输入的图像。

无论是14年的GAN还是15年的DeepDream都还没有实现文字->图片,直到2021年Open AI推出的生图模型DALL-E的诞生。

五、2021年 OpenAI 推出 DALL-E

DALL- E模型的革命性的意义是实现了文字->图片的生成模式,相当于用户输入prompt给DALL-E,DALL-E就能生成文字对应的图片,DALL-E截止目前已经更新到了第三个版本,每个版本使用的模型可以说差别都挺大的,这个三个版本涉及到的主要模型如下:

DALL-E 1

模型基础: GPT-3(Transformer) + VAE(自分编码器)

DALL-E 2

模型基础: CLIP(视觉语言预训练模型) + Diffusion(扩散模型)

DALL-E 3

模型基础:CLIP + VAE + Diffusion(扩散模型)

下面是网上找到的DALL-E2和DALL- E3的对比图:

上述涉及的模型比较多,但我们可以将其进行归类,一类是图像描述生成模型(将用户的Prompt转换成生图模型理解的描述),例如:GPT-3(Transformer)、CLIP(视觉语言预训练模型);另外一类是图像生成,模型 VAE(自分编码器)、Diffusion(扩散模型)。那么下面我们就分别来看看这些模型的原理:

CLIP(视觉语言预训练模型)

中心思想:基于4亿个图像-文本对的数据集,自监督学习的方式实现最大化文本和图像的关联关系。

1)具体步骤为:数据集准备:收集大量的图像和文本对。这些图像和文本对可以是成对的,也可以是单独的图像或文本。理想情况下,这些数据应该涵盖广泛的类别和场景。

2)特征提取:使用预训练的卷积神经网络(CNN)作为图像编码器,从图像中提取特征。对于文本,可以使用预训练的语言模型(如BERT)来提取文本特征。

3)正负样本对:为每个图像生成正样本对(与图像匹配的文本描述)和负样本对(与图像不匹配的文本描述)。这可以通过从数据集中随机选择或使用专门的数据增强技术来实现。

4)对比学习:CLIP模型的核心是对比学习,它通过最大化正样本对之间的相似度并最小化负样本对之间的相似度来训练模型。这通常通过一个对比损失函数来实现。

5)迭代训练:重复上述步骤,直到模型在验证集上的性能不再显著提升或达到预定的迭代次数。

VAE(自分编码器)

VAE(自分编码器)也是一个生图模型,我们在了解VAE(自分编码器)之前可以先了解下它的前生AE(自动编码器)

AE模型由两部分组成,编码器(Encoder)和解码器(Encoder),可以理解为是两个神经网络层,前者是将高维输入(图片)映射为低维编码(code),后者将低维编码(code)映射为高维图片。这样的架构下生成的图片效果并不是很理想,原因是过拟合,泛化性不好,下面用一个例子来解释下这个缺点:

如果我们让 AE 这套架构先去学习“新月”和“满月”两个数据,其中“新月”输出的 code=1 而满月输出的 code=10,这时候想让训练好的 AE 输出“半月”也就是 code=5,效果是不理想的,原因模型训练都是固定的输入和输出,中间没有灰度,所以为了解决这个问题,那么下面讲到的 VAE 就横空出世了。

VAE 是怎么解决 AE 的缺陷的呢,同样用“新月”“满月”的例子,如下图:

我们可以简单理解为在 AE 的基础上增加了正太函数,使得不仅仅code=1 为“新月”,code=0.9、0.8、1.1…同样具备新月的特征,同理不仅仅code=10 为“满月”,code=10.5、11、9.5…同样具备满月的特征,那当 code=5 时候就同时具备了满月和新月的特征,输出的结果就比较理想。

Diffusion(扩散模型)

同样Diffusion(扩散模型)也是一个生图模型,相比上文提到的GAN(对抗生成网络)和AVE(自分编码器)的优势在于生成的图片质量更高且训练过程可控稳定但计算资源消耗较大,我们来看下扩散模型的生图原理:

简单来说 diffusion models 就是一个通过给图片加噪,再反向减噪还原图片的过程,还原的过程中会涉及到一个 unet 网络去预测还原的噪声。具体步骤如下:

1. 将数据集中的图像加噪:

2. 反向引入 unet 网络预测噪声,这里涉及到unet网络如何训练:

  • 引入一个随机噪声图像;
  • 随机噪声图像代入到 unet 网络,网络预测产生了多少噪声;
  • 将随机图像-噪声 得到图片结果;
  • 将图片结果和实际正确图片进行比对产生误差后反向调整模型,直到显示正确的图像。
  • 不同的图片数据集反复形成一个合格的 unet 网络。

3. 有了 unet 网络,就可以还原数据集中的图片:随机噪声-unet 网络预测的噪声

备注:这里面可以了解下马尔可夫链的相关知识,油管地址:
https://www.youtube.com/watch?v=2NruDWUyXBk&t=194s

马尔可夫链在这里可以简单理解为,结果不受初始值(随机噪声)的影响,通过马尔可夫链计算函数可以预测到固定的结果,所以我们可以引入随机的噪音。

我们现在熟知的stable diffusion主要就是基于diffusion生图模型。

到这里DALL-E模型就基本介绍完了,接下来介绍的就是我们众所周知的Midjourney喝Stable Diffusion两个图片生成AI了,而他们所用的模型基本在前面的内容中都介绍了,所以我们就不再扩展,简单介绍下他们用的模型以及一些生图的效果。

八、2022年3月 AI绘画工具 Midjourney 问世

核心的模型:CLIP+GAN

Midjourney 为闭源系统

九、2022年8月 AI绘画工具 stable diffusion 问世

核心模型:CLIP+diffusion+VAE

stable diffusion为开源系统

本文由 @产品萧书 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自 Pixabay,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

【123969澳门资料大全】 【2024年新奥门王中王资料】
【2024澳门今天晚上开什么生肖】 【马会传真澳门免费资料老玩家】
【澳门资料免费领取大全】 【新澳门资料大全免费澳门资料大全】
【新澳六结果资料查询】 【2024年新澳门的记录】
【澳门今期必中一肖一码】 【澳门今晚必开一肖】
【管家婆免费大全】 【新奥门2024资料大全】 【2130.cσm查询澳彩九点半】
上一条新闻 下一条新闻

推荐文章

发表评论

豪斯顿·塞奇

3秒前:反向引入 unet 网络预测噪声,这里涉及到unet网络如何训练:引入一个随机噪声图像;随机噪声图像代入到 unet 网络,网络预测产生了多少噪声;将随机图像-噪声 得到图片结果;将图片结果和实际正确图片进行比对产生误差后反向调整模型,直到显示正确的图像。

IP:11.82.3.*

佐田启二

3秒前:我们现在熟知的Midjourney底层就是基于GAN模型。

IP:42.91.8.*

安泳畅

7秒前:8、1.

IP:94.20.5.*

娱乐圈八卦APP介绍

APP图标

澳门4949资料网站APP名:娱乐圈八卦

版本:V9.91.223

更新时间:2024-10-11 24:16

7777788888管家婆跑狗这是一个功能强大的2024香港正版资料大全视频APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:四、2015年 谷歌的Deep Dream2015年,谷歌推出了”深梦”(Deep Dream)图像生成工具,尽管它更像是一个高级滤镜,但它也标志着AI绘画技术的进步,我们可以先看一下Deep Dream生图的效果:上面那排是原始训练的数据集,下面那排是Deep Dream 生成的像梦境般的迷幻图。

2024新奥门资料大全正版资料APP介绍

APP图标

2024澳门全年免费资料公开APP名:娱乐圈八卦

版本:V8.94.200

更新时间:2024-10-11 17:14

无论是9494港澳沧坛六尾中特快速浏览新闻还是深入了解某个话题,这款新闻APP都能为您提供全面、精准的信息服务。

澳门天天彩免费资料大全免费查询APP介绍

APP图标

新澳门六会精准免费APP名:娱乐圈八卦

版本:V9.25.677

更新时间:2024-10-11 16:15

二四六天天彩246免费资料应用界面简洁易用,用户可以轻松浏览头条新闻、深度报道和特写文章。24小时内的热点资讯一目了然,让您随时掌握世界动态。此外,您还可以参与评论,与其他读者交流看法,形成一个互动活跃的社区。

管家婆一肖一码精准资料APP介绍

APP图标

2024年澳门特马资料图59期APP名:娱乐圈八卦

版本:V8.98.134

更新时间:2024-10-11 20:18

新澳好彩免费资料查询2024这款新闻APP是您获取实时信息的理想伴侣。它汇聚了全球最新的新闻报道,涵盖政治、经济、科技、娱乐、体育等多个领域。通过个性化推荐功能,您可以根据兴趣定制新闻源,确保每条信息都与您相关。

新澳门资料大全2024APP介绍

APP图标

62519澳彩结果查询APP名:娱乐圈八卦

版本:V9.32.746

更新时间:2024-10-11 19:24

这是一款功能强大的演澳门资料大全应用,专为帮助您高效完成各种任务而设计。它不仅提供最新的24小时热点资讯,还为您带来今日的最新动态:到这里DALL-E模型就基本介绍完了,接下来介绍的就是我们众所周知的Midjourney喝Stable Diffusion两个图片生成AI了,而他们所用的模型基本在前面的内容中都介绍了,所以我们就不再扩展,简单介绍下他们用的模型以及一些生图的效果。。无论是获取信息还是提升效率,这款APP都是您理想的助手。

二四六天天免费资料门图讯最快开APP介绍

APP图标

澳门正版金牛资料免费公开APP名:娱乐圈八卦

版本:V1.26.157

更新时间:2024-10-11 22:20

这是一款功能强大的澳彩结果历史记录四不像应用,旨在帮助您高效完成各类任务。它提供最新的24小时热点资讯,让您随时了解发生的重大事件。今天的最新内容包括:这个时候生成器生成的图片效果无限逼近于原始图了。,为您的生活和决策提供了重要参考。这款APP是您获取信息和完成任务的得力助手。

澳门天天开彩期期精准APP介绍

APP图标

香港大全资料APP名:娱乐圈八卦

版本:V7.24.318

更新时间:2024-10-11 23:20

这是一款功能强大的新澳六开合历史纪录应用,专为帮助您高效完成各种任务而设计。它汇集了最新的24小时热点资讯,让您时刻掌握世界动态。今日的最新内容包括:将数据集中的图像加噪:2.,为您的决策和日常生活提供有价值的信息支持。无论您需要了解什么,这款APP都能成为您不可或缺的助手。

管家婆免费资料4949APP介绍

APP图标

新澳门六结果资料查询APP名:娱乐圈八卦

版本:V4.85.325

更新时间:2024-10-11 22:24

今天的最新动态包括:3.,让您第一时间掌握关键资讯,做出明智的决策。这个应用不仅是您的信息获取工具,更是一个提升生活质量的得力助手。

管家婆一码一肖资料大全老人味APP介绍

APP图标

2024年新澳门特马今晚开码APP名:娱乐圈八卦

版本:V9.90.793

更新时间:2024-10-11 21:16

这是一款功能强大的2024澳门码今晚应用,能够帮助你高效地完成多种任务。它包括最新的24小时热点资讯,以及今天的最新动态:1…同样具备新月的特征,同理不仅仅code=10 为“满月”,code=10.。

正版资料免费资料大全APP介绍

APP图标

7777788888精准跑狗APP名:娱乐圈八卦

版本:V8.92.583

更新时间:2024-10-11 17:19

这款功能强大的白小姐精选三肖中特最新规则应用旨在提升您的日常效率,帮助您轻松应对各种任务。应用界面友好直观,用户可以快速导航,获取所需信息。它不仅提供最新的24小时热点资讯,还定期更新各种主题的文章和评论,确保您始终走在信息的前沿。

新澳门内部资料精准大全软件APP介绍

APP图标

管家婆2024开特兔APP名:娱乐圈八卦

版本:V8.98.566

更新时间:2024-10-11 17:17

这款新闻APP是您获取实时新闻的最佳选择。它整合了全球各大新闻来源,提供最新的头条、热点和专题报道,涵盖从政治到娱乐的各个领域。用户可以根据兴趣自定义新闻推送,确保获取最相关的信息。

2024澳门精准正版资料大全APP介绍

APP图标

澳门传真资料查询APP名:娱乐圈八卦

版本:V8.62.141

更新时间:2024-10-11 20:23

APP界面友好,支持快速浏览和离线阅读。您还可以通过搜索功能,快速找到特定主题的新闻。互动功能让您可以评论、分享文章,与朋友讨论热点话题。无论您是在通勤、休闲,还是工作间隙,这款APP都能让您轻松掌握最新动态。