AI 製圖的理想與現實:1次就驚艷,49 次就能用,但我偏偏要走到 65 次
2025 Dec 21 未分類
最近常聽到一句話:
「現在做圖很簡單啊,草圖丟給 AI,圖就自己長出來了。」
如果只是玩玩或做輕量視覺,那或許真的。但我想做一張 邏輯複雜、資訊密集、要拿出去被引用、被挑戰的圖表。
然後我走了一趟懷疑人生的旅程: 65 次重做。
你說,到底是因為 AI 不行,還是我太不死心呢?
第一章:AI 的夢幻時刻,讓人相信未來已經到了
我用的是 Nano Banana Pro(NBP)。一開始真的很爽:
-
我只畫 4×4 的手繪矩陣,上傳
-
AI 就給我一張「看起來很專業」的初版
-
還幫我補分析、補假設,甚至貼出合理推論

NBP 這一代 多模態模型(能同時處理文字+圖片等不同形式資料),已經不只是「畫圖工具」,而是真正在理解內容並嘗試推理。
幾乎就要理解為什麼很多人會說:「真的不需要設計了,都給AI做就好。」
只是,現實很誠實地敲了門...
第二章:不是每一次都崩潰,而是我拒絕只停在「堪用」
我要替 AI 講句公道話。不是 65 次都在煎熬。
-
結構對了,邏輯清楚
-
路徑正確,看的人可以理解
老實說,如果你要的是:「交差」「老闆看懂」「觀眾知道八成」「網路討論朋友拍拍手」
做到這裡就足夠了
而且更重要的是:如果我願意走耐心路線,真的做得到。也就是:
-
不貪心一次完成
-
線條一條條疊上去,每次只解決一個問題(重要!!!)
-
走錯就退回上一版,慢慢驗證、慢慢校正
這種 「工程師式逐層累積」的做法(拆解 → 疊加 → 校正 → 回溯) 是現實存在的,而且非常有效。只是代價是什麼? 我的可愛週末,從天光到傍晚...。
這其實也剛好對應到研究所提到的現象:《Addressing 6 challenges in generative AI for digital health》生成式 AI 在結構任務中,常為了「看起來合理」而不是「嚴格正確」。
正確的東西?需要人工補位與檢查。
那一刻我突然發現,我不是在用 AI,我比較像在當 AI 的專案經理+保母。
人就是這樣,做得出來後,我開始想下一個問題:
如果不是只想「做出來」,而是想「每次都做得好」呢?
第三章:我需要的不只是結果,我需要「可複製的成功」
這時我請 Grok 出場。不是因為 NBP 不行,而是因為我想解決一個更「長遠」的問題:
我不只是要這張圖,我想要下次一次到位。
也就是:
-
不想再靠運氣+堅忍活下去
-
不想每次都走 30~40 次探索
-
我要建立可以「下次就一次 prompt 成功」的能力(也就是可重複、可控的生產流程)。
高階 AI 非常強,但真正決定品質的,往往不是模型本身,而是任務是否被清楚定義,以及我們是否有效限制它亂發揮。
而 Grok 正好是這種冷靜、理性、工程型伙伴:
-
它幫我把需求拆解
-
把 prompt 寫得結構化
-
讓 AI 不再「每次重畫」,開始穩定生產
第50 到 第 57 次,我得到一張:
-
正確,穩定
-
中文正常,視覺一致
完全可以當正式作品的圖(喔噎)

但休息一下,當我擁有「可複製系統」後,我開始不滿足於此,我不只在追求一張快速漂亮的圖,而是在追求三件事:
快速還要更快速!
從49次到8次了,有沒有辦法2次收工?
就是我想在 AI 時代幫自己建立的工作能力。
第四章:我想要的是「更高效、更可控」的系統
於是我開啟Gemini 3 Pro 的Canvas 把圖帶去 Google Slides 重畫。這不是否定 NBP,
而是我承認一件事——
如果瓶頸是讓NBP寫中文,那幹嘛強求?
有些地方,我仍然希望「完全掌控」。我不想交給 AI 來「猜測最佳解」。
研究其實早就點出這件事:
-
《Evaluating the image recognition capabilities of GPT-4V and Gemini Pro》 多模態模型在處理文字、標註與細節時,仍可能遺漏與偏誤。
-
《Generative UI: A rich, custom, visual interactive user experience for any prompt》視覺研究也直接點出:當模型在「讓畫面變漂亮」時,它有時會優先追求好看,而不是嚴格維持結構與一致性。
換句話說,就是NBP很會幫你「整理門面」,但偶爾會順手把重要內容一起改掉。
優化時,模型確實可能犧牲一致性與穩定性。這活生生就是我遇到的?
-
中文亂掉,說明文字被壓縮
-
美化之後資料又跑掉
所以我跑進 Google Slides 的八次修煉:
-
把底圖穩住
-
把中文掌控在自己手中
-
把邏輯鎖好
結果非常清楚:這是一個「更高效、更可控」的系統,不只可複製,而且路徑更短、風險更低
但 Slides 仍少了那點 AI 的美感魔法。所以,最終答案浮現:
最成熟,也最務實的答案
如果你問我:「那你的最佳工作流是什麼?」現在非常清晰:
✔️ 1️⃣ 用 Google Slides 打底
-
正確,可控
-
可維護,不會走偏,中文自己手改
✔️ 2️⃣ 複雜的Prompt 交給 Grok
-
它冷靜,它理性,它專業
它幫我建立「可複製的成功」。
✔️ 3️⃣ 最後交給 Nano Banana Pro
-
它會畫,會美化
-
它讓作品活起來
它幫我完成那 10~15% 的「視覺靈魂」。NBP 不是第一棒,而是最後一棒。
結果就是:
-
Google Slide: 精準 ✔️穩定 ✔️
-
Grok: 可複製 ✔️高效率 ✔️
-
NBP: 還很好看 ✔️
最後是真的感謝這 65 次
因為真正變強的不是 AI。是我變成了一個:
-
更會拆解問題的人
-
更懂建立治理的人
-
更知道如何定義「品質」的人
-
更有能力「駕馭 AI」的人
我覺得,AI用得好的話,遠不只把我們從工作中解放,而是把我們往更高一層推:
一個人就能從「做事的人」,變成設計系統的人、定義邏輯的人、整合能力的人。
