AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

正文

资源拓展

2025-05-30 19:57

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

AI生图新突破！一个模型同时接受文本和图像输入。

新模型FLUX.1 Kontext使用流匹配架构（Flow Matching），不再是文本编码器和扩散模型各干各的，与此前技术都不同。

最来自之前很火的Black Forest Labs，官方表示这一次能做到真正的上下文生成和编辑。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

在编辑能力上，有人在著名的奥特曼尴尬照上P了一个小绿龙。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

在生成能力上，有网友测试的猩猩打羽毛球细节也很丰富。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

具体来说FLUX.1 Kontext有4个特性：

角色一致性：可跨场景保留元素

局部编辑：只针对特定部分而不影响其余部分

风格参考：以现有风格生成新场景

交互速度：以最小延迟进行迭代

这次提供两种模型，专业版FLUX.1 Kontext [pro]更适合快速迭代，可基于之前的编辑

最高配版FLUX.1 Kontext [max]，在遵循提示、文字排版和一致性有所提高。

同时推出官方试玩平台Flux Playground，两种型号都可以选用

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

此外开放权重版FLUX.1 Kontext [dev]提供内测。

提示词技巧

第三方平台Replicate对FLUX.1 Kontext做了详细测试，结论是比OpenAI的4o效果更好，还更便宜，图像也不会偏黄。

测试报告中还针对不同功能给了提示词技巧。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

图像编辑

当编辑人物时，无论改动大小，人物的身份特征都会保留。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

对于风格迁移任务，也能保留人物的基本特征。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

对于更复杂的更改，例如添加人物或更改背景，需要分几步描述每项修改，只要每次改动不太复杂就可以获得好的效果。

风格迁移

风格迁移任务至少具体到“印象派绘画”或“水彩素描”，带上具体的流派艺术家效果更好，如“文艺复兴”或“20 世纪 60 年代的波普艺术”。

如果风格标签不够精准，那就描述一下关键特征，例如“清晰的笔触、厚重的颜料质感和丰富的色彩深度”。如果想保留某些元素，也需要明确说明，如“保持原始构图”。

总之，描述的越具体效果越好。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

文本编辑

支持往图上新增文本、删除文本，甚至定位到已有文本修改。

处理文本时的一些技巧：

使用易读的字体，过于艺术化的字体表现不佳

明确说明要保留哪些内容。如果保留字体样式很重要，请务必提及

尽可能匹配编辑前后的文本长度。长度的大幅变化可能会改变布局

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

此外根据网友测试，FLUX.1 Kontext还可以删除文本，如把电影海报上的字全去掉。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

角色一致性

在连续编辑时，首先要明确人物，然后说明哪些方面发生了变化，无论是场景、活动还是风格。

如果想让同一个人物继续存在，需要说明哪些方面需要保留：面部、表情、服饰或其他任何重要方面。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

在编辑背景和场景的同时保持角色的一致性需要详细描述，以保持人物处于相同的位置、比例或姿势。

简短的提示有时会留下太多模糊的地方，如“把他挪到沙滩上”，就不如：

将背景换成海滩，同时保持人物位置不变，保持相同的主体位置、拍摄角度、取景和视角。只需替换人物周围的环境即可。

其他技巧

最后，Repilicate还对使用FLUX.1 Kontext的提示词技巧做了一个总结：

使用清晰、详细的语言。准确命名颜色，精准描述视觉元素，并选择直接的动作动词。避免使用“使其更好”之类的模糊词语。

将复杂的编辑分解成更小的步骤。按顺序进行操作，更容易管理较大的变更。

明确哪些部分应该保留。使用“同时保持相同的面部特征”或“维持原始构图”等短语来保护关键元素。

使用描述性短语，例如“留着黑色短发的女人”或“红色汽车”。避免使用代词。

编辑文本时使用引号，例如，“将‘x’替换为‘y’”

明确控制构图：编辑场景时，明确说明是否要保留摄像机角度或取景框等内容。

谨慎选择动词：“改造”之类的词语暗示着彻底的改造。如果想要更精准的控制，可以使用更具体的操作，例如“换衣服”或“替换背景”。

One More Thing

最后再来看一下文生图领域的格局，在AritificialAnalysis的排行榜上，GPT-4o、字节的Seedream 3.0和Recraft V3排名前三。

Black Forest Labs的上一代爆款产品FLUX.1已经相对靠后。

可以期待一下FLUX.1 Kontex的投票结果。

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

在线试玩

https://playground.bfl.ai/image/generate

参考链接：

[1]https://x.com/bfl_ml/status/1928143010811748863

[2]https://replicate.com/blog/flux-kontext

[3]https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

文章来自微信公众号 “ 量子位 ”，作者 “ 梦晨 ”

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

Flux

【部分开源免费】FLUX是由Black Forest Labs开发的一个文生图和图生图的AI绘图项目，该团队为前SD成员构成。该项目是目前效果最好的文生图开源项目，效果堪比midjourney。

项目地址：https://github.com/black-forest-labs/flux

在线使用：https://fluximg.com/zh

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。

在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。

项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

IOS下载

安卓下载

微信群

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

站点导航

APP 下载