作为一个不会设计图但还想捣鼓一下自媒体,偶尔发下文章之类的程序员,经常需要图片时想基于大模型的文生图AI能力创作一个,但一直没有遇到合适的,下面我花了一些时间就像神农尝百草一样体验下各大平台的AI文生图能力。
注:请耐心看完,最后确实有百分百满足需求的平台(非广告,其它平台经过未来发展可能也会提升,另外也可能和大模型训练的数据集缺少相关主题的图片内容有关,也许各有侧重重点,因此结果仅为个人测试当作随机参考)
统一测试提示词:请画一幅图,图中有一块黑板,黑板上写着简体中文"AI让程序员变为全栈",字体是白色,并且在排版方面都排在同一行
通义千问
文心一格
豆包
Tusiart
liblib.art
无界AI
Qiyuai
insmind
Fluxai
Bigesj
Whee
注:美图旗下 AI 绘画平台,模型是 MiracleVision 大模型
汇总下结果如下:
AI平台 | 意图理解 | 生成图片质量 | 综合评分 |
通义千问 | 未理解 | 内容完全不符 | * |
文心一格 | 理解了黑板 | 文字不符,乱 | * |
豆包 | 理解了黑板 | 文字是日文 | ** |
tusiart | 没理解 | 完全不符 | - |
liblib | 理解了黑 | 非黑板,文字不符 | - |
无界AI | 理解了黑板 | 文字不符 | * |
qiyuA | 没理解 | 完全不符 | - |
insmind | 没理解 | 完全不符 | - |
fluxai | 理解黑板 | 文字不符 | ** |
bigesj | 可理解 | 多了个老师 | **** |
whee | 可理解 | 完全正确 | ***** |
为什么文生图看起来比较难,甚至只有个别大模型可以做的相对靠谱?
下面是AI文生图的核心原理和生成图片的质量关联因素:
1)大规模有丰富标注的图片数据集的预训练
AI 文生图模型需要在大量的现有“图像-文本对"数据上进行预训练。这些数据集包含了各种各样的图像和与之对应的文本描述。例如,有风景图片和描述其景色特点的文字,有人物图片和对人物外貌、动作的描述等。通过对这些数据的学习,模型能够理解不同的文本元素和图像特征之间的关联。
2)对用户请求的语义理解与特征提取
模型会从文本中提取语义信息,比如对象(人、物等)、属性(颜色、形状等)、关系(位置关系、动作关系等)。同时,它也会从图像数据中提取相应的视觉特征,如线条、色彩分布、纹理等。然后将文本语义与图像视觉特征进行匹配学习。例如,对于 “一个红色的圆形气球在蓝色天空中飞翔” 的文本,模型会学习到 “红色”“圆形”“气球”“飞翔”“蓝色天空” 这些语义元素应该与什么样的视觉特征相对应,从而在生成图像时能够根据这些知识组合出合适的画面。