今日运势评分

-2

本月运势

戊子月

震荡偏多

丁破格,巳申合水
丁不剃头头必生疮
巳不远行财物伏藏

祭祀,解除,馀事勿取

诸事不宜

月相

有明

底部反弹

日冲

Powered by RitMEX

ONDO0.43 -4.04%

TRUMP5.40 -1.43%

SUI1.52 -4.60%

TON1.53 -4.34%

TRX0.28 1.82%

DOGE0.13 -1.65%

XRP1.94 -2.89%

SOL129.68 -0.84%

BNB866.11 -2.20%

ETH3037.75 -1.18%

BTC87627.03 -1.55%

ETH Gas0.36 Gwei

恐惧
21

谷歌最新「香蕉」AI 图像模型,让网友疯玩「Vibe Photoshoping」

高度的角色一致性,带来了前所未有的「Vibe Photoshoping」体验。

还记得之前大家热议的神秘 AI 图片编辑模型「nano-banana」吗?当时在 LMArena 大语言模型竞技场里,它凭借出色表现一度被讨论得沸沸扬扬。Google Gemini 各路技术大牛也是轮番出马,在社交媒体上吊足众人胃口,甚至一度成为了传闻中的 Gemini 3.0 Pro

如今,Google 终于揭开了它的神秘面纱。

北京时间 8 月 27 日凌晨,Google AI Studio 正式发布了 Gemini 2.5 Flash Image(代号 nano banana)🍌。

预热许久终于登场的 Gemini 2.5 Flash Image | 图片来源:极客公园

这是迄今为止 Google 最先进的图像生成与编辑模型,不仅速度快得离谱,几乎是「闪电般」的体验,还在多个榜单上拿下了 SOTA 的成绩,在 LMArena 上更是遥遥领先。

一登场就达到 SOTA 能力的 Gemini 2.5 Flash Image | 图片来源:LMarena.ai

在技术博客里,Google 提到 Gemini 2.0 Flash 已经凭借低延迟和高性价比赢得了开发者的青睐,但用户们一直期待更高质量的图像和更强大的创作控制。Gemini 2.5 Flash Image 正是带着这些重磅升级而来:角色一致性终于得以充分保持,基于提示的图片编辑也更精准,多幅图像的融合效果自然流畅,再加上对现实世界知识的理解,让它不仅是一款模型,更像是为下一代爆款应用奠定基础的「原点」。

极客公园也在第一时间体验了它。出乎意料的是,这不仅仅是一个模型更新,它让人第一次真切地感觉到,AI 修图未来的样子已经近在眼前。

Google AI Studio 中目前已经开放体验 | 图片来源:极客公园

一开始,我的确只是抱着常规体验、「看看新模型又快在哪」的心态。可没想到,短短几个小时的体验,让我仿佛提前窥见了下一代爆款应用的模样。

过去我们习惯了美图秀秀这样的工具,点点按钮、套个滤镜,照片就能迅速变美。但 Gemini 2.5 Flash Image 给人的感觉完全不同。它快得不可思议,聪明得像个懂你心思的设计师,你只需要说出想要的效果,它就能在几秒钟里把画面呈现出来。

除了效果,速度也是 Gemini 2.5 Flash Image 另一个明显不同于此前模型生图产品的体验 | 图片来源:极客公园

01 极速生成,几秒钟出结果

Nano banana 体验最直观的就是速度。以往在使用一些开源模型时,哪怕你电脑配置不错,从输入提示到生成一张像样的图,也得等个几十秒甚至更久。对于手机端用户来说,这个等待过程更是煎熬。

但 Gemini 2.5 Flash Image 把这个门槛直接拉低到了几秒钟的级别。它本身是 Google 宣称的「最新、最快、最高效」的原生多模态模型,在优化上明显下了很大功夫。我在实际测试时,输入一句提示,大概三四秒就能生成结果,而且分辨率和细节都相当清晰。

这种体验很像我们日常用美图秀秀处理照片:点一下「美颜」按钮,几乎是即时见效。区别在于,美图秀秀是用算法套现成滤镜,而 Gemini 2.5 Flash Image 是在从零构建一张图,或者把一张照片按你的需求进行大幅改造。这种「指哪打哪」的爽感,是以往繁琐的 P 图流程完全不可想象的。

类似这种「删除路人背景」的需求,只需要一个 Prompt 就能解决 | 图片来源:极客公园

如果说速度解决的是传统 P 图用户的体验感,那么「原生多模态」解决的就是 AI图片能力边界

Gemini 2.5 Flash Image 不仅能生成图片,还能同时理解文字和图像输入。这意味着我可以把一张照片和一段文字提示同时给它,它会结合两者的信息去理解我到底想要什么。

举个例子,我上传了一张在街头拍的照片,然后告诉它「把背景改成东京新宿的夜景」。结果它不仅识别出了我上传照片里的主体,而且准确地把人抠出来,背景替换成了霓虹灯闪烁的新宿街头。更难得的是,它还保持了人物光影的统一,完全没有人手抠图经常无法避免的那种「硬抠贴」的效果。

这种理解力让我想起近几年手机厂商在系统自带相册中经常被提到的一个功能——「一键换背景」。但区别在于,当年的换背景常常边缘发虚、光影不对,效果很假。而现在,Gemini 2.5 Flash Image 能用世界知识和视觉理解来补足这些细节,结果自然得多,获得了远比传统文生图/图生图模型工具更准确的画面细节保留。

原图 & Gemini 2.5 Flash Image 生成效果 | 图片来源:极客公园

这也是为什么我觉得它会重新定义修图体验:不再是依赖大量手工调整,而是靠模型的自然语义理解来「大力飞砖」式的完成任务,例如在人像 P 图这种对画面细节要求极高的场景。

对于这种人像图片处理需求,Gemini 2.5 Flash Image 的角色一致性真的提供了一种前所未有的「Vibe Photoshoping」体验。

一秒帮程序员「挽尊」| 图片来源:极客公园

这种体验打破了很多人对 AI 图像生成以往印象 —— 「玄学」:无论你提示词写得好,出图效果惊艳;提示词写得一般,生成的东西可能完全跑偏。

但在 Gemini 2.5 Flash Image 里,我发现这种「玄学感」被削弱了很多。它对提示词的理解更精准,也更贴近用户的直觉—— 这就是为什么不少人会突然觉得它会好用很多的原因。

比如我对它说「模糊背景,突出前景人物」,几秒钟后生成的图正是我想要的效果;我让它「把照片里的人换成微笑的表情」,结果不仅嘴角微微上扬,连眼神都做了调整,细节非常到位;我甚至试过「给黑白照上色」,结果输出的彩色图并不是乱涂一气,而是尽可能贴近历史照片中该有的色彩氛围。

这种「说到做到」的能力,让我想到过去用美图秀秀时,明明只是想磨皮,结果整张脸变成了「开了十级美颜」的假人脸。而现在,Gemini 2.5 Flash Image 的操作是精准的、克制的,它真的理解你要什么,然后尽量还原。

02 能力加强,旦用难回

为了更直观,我特意拿它和我日常常用的移动端修图工具做了对比。

在 Snapseed 上,我如果要模糊背景,通常需要花一两分钟手动圈选前景区域,再调整模糊程度。即使操作熟练,也免不了反复修改。

在美图秀秀上,虽然有一键背景模糊功能,但经常会把人物的边缘模糊掉,效果不够自然。

而在 Gemini 2.5 Flash Image 上,我只需要一句话,它自动识别出人物和背景的边界,模糊效果自然,完全不需要二次修饰。

在更改画面中细节的同时,仍然对其他背景部分避免了此前 AI 工具经常出现的「乱涂乱画」 | 图片来源:Twitter

这种对比其实说明了一点:Gemini 2.5 Flash Image 把用户从复杂操作中解放了出来,把更多的工作交给了模型。对于普通人来说,它降低了修图的门槛;对于专业人士来说,它节省了大量时间。

体验下来,我最大的感受是,Gemini 2.5 Flash Image 已经不再只是一个修图工具,而是更接近「智能助手」。

过去,我们用美图秀秀,是在使用一个预设好的功能合集,滤镜、美颜、马赛克,每一个按钮对应一个功能。你要做的就是一点点选择、一步步调整,直到满意。

而现在,Gemini 2.5 Flash Image 的逻辑完全不同。它不再要求你学习工具的逻辑,而是直接理解你的需求。你只要说出来,它就替你完成。

这种转变看似细微,但实质上完全改变了 P 图这个流程的关系。以前是我们去适应工具,现在是工具来适应我们。这种交互方式,本身就是下一代应用形态的雏形。

站在现在来看,Gemini 2.5 Flash Image 还处在早期阶段,功能上可能还有边界。但它展现出来的速度、理解力和还原度,足以让人对未来充满想象。

如果把它和美图秀秀结合起来,会是什么样子?可能是你打开应用,对着手机说一句「帮我修一下这张照片,让皮肤自然一些」,几秒钟后结果就生成了;可能是旅行拍照时,你告诉它「把天气改成晴天」,照片立刻变成阳光明媚的样子;甚至可能是视频编辑里,你用一句话就能改变整个片段的氛围。

这种方式未来可能会迅速成为手机操作系统中的主流图片编辑功能 | 图片来源:Twitter

这就是为什么我觉得它会迅速革命 P 图工具领域现有的操作流程,定义下一代「美图秀秀」:不仅仅是修图,而是重新塑造图像处理的交互方式,让 AI 成为你的摄影后期伙伴。

但目前 Gemini 2.5 Flash Image 还并不能一步到位,充当开箱即用的大众 P 图 App:不仅是因为它的主要目的仍然是图像生成而非在现有的基础上微调,而且所有通过 Gemini 2.5 Flash Image 创建或编辑的图像都会包含一个SynthID 数字水印,用于社交内容平台识别 AI 生成内容。

03 爆款的爆发点

回头想想,美图秀秀曾经之所以能成为全民应用,靠的是它用最简单的方式解决了所有人都想解决的问题——让照片更好看。

而 Gemini 2.5 Flash Image,正是在这个基础上进一步,把复杂的 AI 能力打磨成人人都能用的「秒出图」体验。

当我第一次对它说出「帮我模糊一下背景」,几秒后画面就被自然处理好的那一瞬间,我心里很清楚:这是爆款应用的爆发原点。它不仅仅是一个模型,而是未来无数新产品的底层能力。

前几年在手机用户之间爆火的 AI 一键换天功能 | 图片来源:vivo 社区

也许几年后,我们会忘记 Banana 这个代号,但会看到越来越多这种让你「想要什么就说出来,立刻就能实现」的新体验的图片处理工具,也许会像当年的美图秀秀一样,成为一代用户的共同记忆。

只不过这一次,AI 会把想象力推得更远。

欢迎加入深潮TechFlow官方社群

Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/BlockFlow_News
作者极客公园极客公园
相关文章
2025.09.17 - 89 天前
谷歌巨变:AI 支付,稳定币先行
AI 与加密金融的融合正在提速。
2025.12.15 - 2 分钟前
Aster 推出 Shield Mode:为链上交易者打造的高性能交易保护模式
该交易功能作为全新的保护模式,致力于将完整的 1001 倍杠杆交易体验融入更快速、安全、灵活的链上交易环境。
2025.12.15 - 6 小时前
Vision 宣布 Bitget 已上架 VSN 代币,继续国际扩张
Vision Web3基金会成立于2025年,是一个独立组织,负责治理和开发Vision (VSN)代币及其周边生态系统。
2025.12.12 - 3 天前
Axe Compute [NASDAQ:AGPU] 完成企业重组(原POAI),企业级去中心化 GPU 算力 Aethir 正式进入主流市场
Predictive Oncology 更名为 Axe Compute (AGPU),成为纳斯达克首家去中心化 GPU 基础设施上市公司,通过 Aethir 网络为 AI 企业提供算力服务,旨在解决行业算力瓶颈问题。
2025.12.12 - 3 天前
x402 V2 发布:当 AI Agent 开始拥有“信用卡”,哪些项目将被重估?
静水流深,重拾 402 叙事的草蛇灰线。
2025.12.12 - 3 天前
摩根大通倒戈华尔街:囤积白银,卡位黄金,做空美元信用
摩根大通左手在西方锁死实物的流动性,制造恐慌;右手在东方筑好避风的蓄水池,坐收红利。
2025.12.11 - 4 天前
力说|1011两月忌
在这个市场,散户的命,不是命。是流动性的无私贡献者。
2025.12.11 - 4 天前
火币HTX合约跟单4.0重磅上线:三重福利同步开启,参与瓜分80,000 USDT奖池
火币HTX推出合约跟单4.0版本,引入智能跟单和资金隔离功能,并同步开启三重活动,总奖池高达80,000 USDT,旨在为用户提供更智能、高效、安全的交易体验。
HTX
2025.12.11 - 4 天前
奖池60,000 USDT,“TRON ECO Holiday Odyssey”年度生态探索盛会即将开启
波场TRON ECO于圣诞&元旦期间推出大型生态联动活动,多重豪华礼遇覆盖全线生态体验!
2025.12.11 - 4 天前
Strategy 硬刚 MSCI:DAT 的终极辩护
信中直言:「这一提议具有严重误导性,将对全球投资者利益与数字资产行业发展造成深远的破坏性后果,我们强烈要求 MSCI 完全撤销该计划。」