aire.
·9 分鐘

2026 上半年 AI 圖像工具評比:四個方向,四種選擇

Midjourney V7、Stable Diffusion 3.5 與 Flux、ChatGPT Images 2.0、Ideogram 3.0 各自走到不同的位置。挑工具之前先挑使用情境,這個答案多半比工具本身更重要。

本文涉及工具

前言

2026 年走到春末,AI 圖像生成這條賽道已經分出明顯的隊伍。早期那種「什麼都能畫,什麼都不夠好」的狀態退場了,剩下的工具各自往自己擅長的方向收斂。

這篇是 aire 編輯室 2026 上半年的觀察筆記,挑出市場上四個最具代表性的工具:Midjourney、Stable Diffusion(含 Flux)、ChatGPT Images 2.0、Ideogram,各代表一種技術路線與使用情境。寫法不走 spec 全面對照,而是先把四種定位的差異講清楚,再用一張對照表收尾,方便你在挑工具之前先挑情境。

四個工具現在各自的版本與切入點如下:Midjourney 的當家版本是 V7,V8.1 alpha 已於 2026 年 4 月 14 日在 alpha.midjourney.com 推出,核心是 Omni Reference 取代舊的 character reference 系統 + 新增 Draft Mode。Stable Diffusion 母公司 Stability AI 最新公開模型是 SD 3.5(2024 年 10 月發布,三個版本 8B Large / 8B Large Turbo / 2.5B Medium),但開源生態的話題早已轉向 Black Forest Labs 出品的 Flux 系列。ChatGPT Images 2.0(GPT Image 2)是 OpenAI 2026 年 4 月 21 日發表的全新模型,2K 解析度 + 99% 任意語系文字準確度 + 對話式 reasoning 流程一次到位。Ideogram 主推的 3.0 版(2025 年 3 月發布)持續鎖定文字排版這個其他模型長期偏弱的角落,文字準確率報導值在 90-95%。

下面分四節,看四種定位各自要解的問題。

Midjourney:藝術性的天花板

Midjourney V7 web app interface Midjourney V7 介面截圖(by aire 編輯室,2026-04-29)

Midjourney 的位置一直很穩。它沒有特別便宜,也不開源,介面甚至不算現代,但在「美感」這件事上,仍是市場上最少需要解釋的工具。

定價與層級

V7 時代的 Midjourney 採四層月費制:Basic $10、Standard $30、Pro $60、Mega $120(年繳一律打 8 折,等於 $8 / $24 / $48 / $96)。沒有 free tier,所有層級都附帶商業使用權。

Stealth Mode(生成不公開到 gallery)僅 Pro 以上可用,這是商業客戶會多花一倍預算到 $60/月起跳的主因。設計給客戶看的草圖如果都進公開 gallery,是個合約風險,外加智慧財產管理問題。

Standard 以上同時開放 Relax Mode 無上限生成,對個人創作者來說是甜蜜點:每月 $30 換來「排隊但無上限」的幾乎全包體驗,比 Basic 的限額制度划算很多。

V7 帶來的差別

V7 跟前代最大差別是 Omni Reference — 一個取代舊 character reference 系統的新方案,能在多張圖之間維持人物、物件、構圖的一致性,而不只是「臉長得像」。對劇本式插畫、漫畫分鏡、品牌視覺 set 都是有意義的升級。同時 V7 對手部、肢體、文字渲染也補了一輪(V6.1 已經修了大部分,V7 是進一步優化)。

新增的 Draft Mode 讓 Midjourney 終於有個快速廉價的生成模式,適合做初步構想 brainstorm,等選定方向再切回標準模式 upscale。對工作流程影響不小,因為 Midjourney 過去最常被批評的就是「每次 generation 都要等」。

V8.1 alpha 在 2026 年 4 月 14 日於 alpha.midjourney.com 上線,目前還沒進主站跟 Discord,是給願意當 early tester 的用戶試水溫,可以視為下半年的方向預告。

適合誰

Midjourney 仍是商業視覺設計師的首選風格探索工具。許多人把它當成第一輪靈感入口,挑出對的方向後,再用其他工具補完細節(例如 Photoshop 修圖、Stable Diffusion 做變體、Ideogram 補文字排版)。它的優勢從來不在功能多寡,而在於初出圖那一刻的質感。

Stable Diffusion:自由度與在地部署

Stable Diffusion / Flux open-source UI screenshot Stable Diffusion / Flux 介面截圖(by aire 編輯室,2026-04-29)

Stable Diffusion 屬於另一條線。當你在意資料不離開本機、要做大量批次運算、或想做高度客製化的微調,這條開源路線目前仍是少數選擇。

模型生態現況

Stability AI 自家的最新模型是 SD 3.5(2024 年 10 月推出),三個版本:8B Large、8B Large Turbo(4 步快速生成)、2.5B Medium。SD 3.5 採用新的 MMDiT(Multi-Modal Diffusion Transformer)架構 + T5 文字編碼器,在文字渲染與多物件複雜 prompt 上有顯著進步。

但開源社群的話題早已轉移。2024 年初,幾位 Stable Diffusion 原作者(包含 Robin Rombach)離開 Stability AI 創辦 Black Forest Labs,當年 8 月發表 FLUX.1 直接登上 benchmark 榜首;Flux 2 在 2025 年底推出,把品質再推一輪。現在開源圈子的標配工作流程,多半是 SDXL(2023 年 7 月推出,1024x1024 原生解析度)+ ControlNet/LoRA 做風格控制,搭配 Flux 做高品質照片寫實 + 文字渲染。SD 3.5 屬於 Stability AI 自家的選項,但市場熱度不及 Flux。

硬體門檻

本地部署的 VRAM 要求是這條路線的主要篩選器:SD 1.5 需 4GB 起跳、SDXL 建議 8-12GB、SD 3.5 Large 則需 16-24GB 才能流暢運作。對個人玩家,二手 RTX 3090(24GB VRAM)是過去兩年的甜蜜點機型;2025 年 1 月 NVIDIA 發布 RTX 5090(32GB)/ 5080(16GB)後,記憶體配置才開始有比較合理的新選擇。

ComfyUI 仍是社群最普及的本地端 UI,它的 node-based workflow 對工程背景的人很順手,對美術背景的人則需要一段學習曲線。Automatic1111 的 webui 則持續維護,但社群熱度逐步轉向 ComfyUI。

適合誰

開源路線的 ROI 在「規模 + 客製化」兩個軸上才會打贏付費 API。如果你只是偶爾出圖,付 Midjourney 一個月 $30 比裝 SD + ComfyUI + 學 LoRA + 維護模型權重來得划算。

但如果你的需求是:每週上千張 batch、要 fine-tune 自己的風格、資料保密在本機(律師事務所、醫療影像、情色內容、商業敏感素材等)、或者想用 ControlNet 做精準 layout 控制 — 這條路線目前仍是少數選擇。長期看,本地端運算的 AI 工具會繼續是一個獨立的小生態。

ChatGPT Images 2.0:對話即產出

ChatGPT Images 2.0 conversational image generation interface ChatGPT Images 2.0 對話介面截圖(by aire 編輯室,2026-04-29)

OpenAI 在 2026 年 4 月 21 日發表 ChatGPT Images 2.0(內部代號 GPT Image 2),把圖像生成正式收進對話流程。它的價值不只是畫圖,而是把「描述、修改、討論、再生成」整段過程接在同一個介面裡。

技術升級重點

GPT Image 2 是 OpenAI 第一個導入 O-series reasoning 能力的圖像模型,主要規格五點:① 任意語系文字準確度約 99% ② 內建 reasoning 後再生成(模型會檢查自己的輸出)③ 跨輪對話編輯不漂移 ④ 單張可放 100+ 物件 ⑤ 任何風格畫質不掉檔。

2K 解析度是穩定支援,2K 以上仍在 beta。寬高比範圍 3:1 到 1:3,單一 prompt 可生成最多 8 張角色與物件連續性的圖。

兩段存取模式

服務分 Instant Mode(免費)跟 Thinking Mode(Plus / Pro / Business)。

Instant 適合快速試色、素材級用途;Thinking 走完整 reasoning + web search,適合需要精確 brand reference、複雜 layout、多重相依條件 prompt 的場景。差別不在於「畫得更精緻」這種表淺修辭,而是模型在生成前會先用 LLM 推理(評估 prompt 內部一致性、查 web 找 reference),再決定怎麼下筆。對於需要同時滿足品牌準確、場景準確、光線一致這類多重相依條件的 prompt,Thinking Mode 的差距會比一般情境更明顯。

API 走 token 計價:input $8/百萬 token、cached input $2/百萬 token、output $30/百萬 token。換算每張圖約 $0.04-0.35 不等,視 prompt 複雜度跟解析度而定。API 對開發者開放時間是 2026 年 5 月初。

適合誰

對不熟設計術語的使用者,這個體驗門檻最低。對熟練 Photoshop / Illustrator 的設計師,GPT Image 2 在「快速做出一張 OK 但需要後製細節」的場景優勢明顯,可以取代過去花在 stock photo / placeholder 的時間。

但若需求是高藝術性 / 風格獨特性,仍會回頭找 Midjourney。GPT Image 2 的「對話即產出」是降低門檻,不是提高上限。

Ideogram:文字排版的補位者

Ideogram 3.0 web app interface with typography focus Ideogram 3.0 介面截圖(by aire 編輯室,2026-04-29)

Ideogram 處理的是其他工具長期偏弱的角落:把文字準確排在影像裡。海報、Logo 草圖、社群圖卡這類有字的場景,它的命中率明顯高於通用模型。

文字渲染的真實水準

Ideogram 3.0(2025 年 3 月發布)報導的文字準確度約 90-95%。對 1-2 行短字(標題、Logo wordmark)幾乎無誤;對長段排版仍會出現字距、邊緣 artifact 問題,但比 SD/MJ 兩條路線都好太多。

新增字型風格包含手寫、3D、塗鴉等,加上專屬的 Typography tag 強化文字場景的提示詞處理。Ideogram 的文字準確率報導值是基於英文與西歐語系;CJK 語系(中文、日文、韓文)的實際表現各家評測結果不一,建議真實使用前先以自己的常用字、品牌字測試一輪再下決定。

工作流工具

Canvas Editor 提供 inpainting / outpainting,把生成圖直接切成可繼續編輯的工作區。Magic Fill 用來局部重畫。Style Reference 接受 3 張參考圖,產生可儲存的 Style Code 跨次重用 — 對品牌一致性需求非常實用。

Batch Generation(Pro 限定)支援 CSV 批次產出,是廣告投放素材的常見用法:上傳一份標題 / slogan / 商品 SKU 的 CSV,一次出幾百張差異化版本。對 performance marketing 團隊是時間槓桿。

定價與可用層級

定價結構在 2026 年初有調整:Basic ($7) 已停止對外販售,現在主要付費層是 Plus 跟 Pro(後者含 3000 priority credits + bulk CSV)。Free plan 仍提供每週 10 張 slow credits 額度,門檻很低。

適合誰

把 Ideogram 跟前面三個工具並列來看,它的角色是補位,跟那三個工具屬於不同問題的解。海報、Logo 草圖、社群圖卡、廣告 banner 這類「圖片裡有字」場景,Ideogram 命中率明顯高於通用模型。

對品牌設計師、廣告 creative、社群小編是必要工具;對純藝術創作者意義較小。

一張對照表

四個工具放在一起,最快的差異對照如下:

工具 最新版本 核心優勢 主要弱點 定價區間(月) 適合場景
Midjourney V7 / V8.1 alpha 美感與風格密度 介面陽春、商用 Stealth 鎖 Pro+ $10–$120 商業設計師、視覺探索
Stable Diffusion / Flux SD 3.5 / Flux 2 開源、本地、可微調 硬體門檻高(VRAM 16-24GB) 自架硬體成本 工程團隊、批次需求、保密場景
ChatGPT Images 2.0 GPT Image 2(4/21) 對話流程、文字 99% 準確 API 5 月才開放、Thinking 鎖 Plus+ $20–$200 非設計背景使用者、快速產出
Ideogram 3.0(2025/03) 影像中文字排版 90-95% 純藝術風格相對偏弱 免費 + Plus/Pro 海報、Logo、社群圖卡

怎麼選

如果你只能選一個工具,問自己三個問題:

  1. 我畫的東西是要展示風格還是要解決問題? 風格優先選 Midjourney;問題優先選 ChatGPT Images 2.0
  2. 我有沒有上千張的批次需求或保密需求? 有的話,本地端 SD/Flux 的 ROI 才會打贏付費 API
  3. 我的圖裡會有字嗎? 海報、Logo、社群圖卡優先選 Ideogram,其他工具的文字準確度仍跟它有段距離

這三題的答案多半比工具本身更重要。許多人的真實工作流程是「組合拳」 — Midjourney 出風格、Ideogram 補文字、ChatGPT Images 2.0 做快速原型、SD/Flux 處理批次跟保密 — 這四個工具不是互相替代的關係,是同一個 toolkit 的不同抽屜。

結語

四個工具不在同一條跑道上競爭。Midjourney 賣質感,Stable Diffusion 賣自由,ChatGPT Images 2.0 賣對話流程,Ideogram 賣文字排版。

挑工具之前先挑使用情境,這個答案多半比工具本身更重要。

2026 年下半年值得關注的方向:Midjourney V8.1 alpha 是否走出 Discord、ChatGPT Images 2.0 API 開放後的價格戰、Flux 3 / SD 4 是否還會出、以及四家是否都會內建 video 生成把賽道再合併一輪。半年後我們再寫一篇對照看。


資料來源:本文 spec、定價、版本資訊來自 2026-04-29 各官網與第三方評測整理。Midjourney V7 / V8.1 alpha 資訊來自 docs.midjourney.com 與 alpha.midjourney.com 公告;Stable Diffusion 3.5 / Flux 系列資訊來自 stability.ai、Hugging Face、Black Forest Labs 公告;ChatGPT Images 2.0 資訊來自 OpenAI 2026-04-21 發表頁;Ideogram 3.0 資訊來自 ideogram.ai/features/3.0 與 docs.ideogram.ai。後續價格、版本若有變動,以各官網公告為準。