2024年2月23日,Stability AI在其官方网站上发布了Stable Diffusion 3.0,再次刷新了人们对AI模型的认知。Stable Diffusion 3.0采用了与Sora模型相同的DiT(离散扩散)架构,从而在画面质量、文字渲染以及对复杂对象的识别和理解方面实现了显著的飞跃。
Stable Diffusion 3.0的参数规模介于8亿至80亿之间,可能是专门为移动设备优化设计的。AI算力的消耗将会大幅降低,而推理的速度则会得到显著提升,与Midjourney、DALL-E 3等其他先进AI模型的比较中显得更为出色,确立了其在图像生成领域的领先地位。目前,Stable Diffusion 3已经开放申请使用,并且计划在未来进一步扩大其测试的范围。
Stable Diffusion 3.0的核心架构采用了Transformer技术,ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。这种架构的开发为Stable Diffusion 3.0提供了强大的性能后盾,使其在图像处理和生成领域展现出卓越的能力。
Stable Diffusion 3.0不仅采纳了Transformer架构,还融合了Flow Matching(FM)等尖端技术,显著增强了模型在生成图像方面的质量和多样性。Flow Matching是基于Continuous Normalizing Flows (CNFs) 的生成建模新方法,它通过探索不同的概率路径,极大地提升了模型的灵活性、稳定性以及整体性能。
下面一起来看看来自Stability AI官网Stable Diffusion 3生成的案例:
提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字
提示词:教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”
提示词:一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着” Stable Diffusion “的字样。
提示词:一只变色龙,黑色背景,摄影风格。
提示词:一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。
提示词:波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。
Stable Diffusion 3的震撼发布标志着AI在图像处理领域迈出了坚实的一步。随着算法的不断优化和硬件的持续进步,未来的AI图像生成技术将更加强大,为人类带来更丰富的视觉体验和创意空间。
-
广告合作
-
QQ群号:707632017