aire.
·7 分鐘

我真的拿錢去抽卡了:Veo 3.1 與 Kling 3.0 實測,從 prompt 到一支能用的鏡頭

前面三篇都在談 AI 視頻。這一篇,我把錢掏出來,真的去驅動了 Veo 3.1 和 Kling 3.0:同樣的 prompt、同樣的四個鏡頭、各自的帳單。結果有點意外 — 基本畫質那道牆,退了;但另外兩道牆,清清楚楚地還站在那裡。

收進

前言

這個系列走到這裡,我一直在談 AI 視頻:第一篇〈前三秒驚艷,第五秒穿幫〉講它為什麼難,第二篇〈2026 年中工具評比〉看市場上有哪些工具,第三篇〈把一篇文章做成短片〉則乾脆繞過 AI 動態生成,用我自己掌控的產線交付。

但繞過去,終究不是答案。所以這一篇,我把錢掏出來,真的去驅動了那個我一直在繞開的零件 — 文生視頻模型本身。我挑了兩家當前的代表:Google 的 Veo 3.1(透過 Gemini API)和快手的 Kling 3.0(透過國際版 Open Platform API),給它們一模一樣的 prompt、一模一樣的四個鏡頭,然後看帳單、看成果。

結果有點意外。我本來是抱著「來看它翻車」的心態去的,因為前三篇我一直在講那三道牆。但這次實測下來,我得誠實地說:有一道牆,真的退了;但另外兩道,清清楚楚地還站在原地。

怎麼測的

設定很簡單,就是把同樣的需求丟給兩家,控制變因:

  • 四個鏡頭:① 一杯冒著蒸汽的熱茶(氛圍);② 一隻手把茶倒進杯子(物理);③ 一個人看著鏡頭說一句話(連戲+聲音);④ 一連串精準指令(揮手→指向→鏡頭搖到時鐘,而且「時鐘要剛好 3 點」)。
  • Veo 3.1 我同時跑了 Fast 與標準版,想看畫質與成本的取捨;Kling 3.0 走 std 模式。
  • 全部都是英文 prompt、16:9、5–8 秒。

錢的部分先攤開來講,因為這也是重點之一:Veo Fast 約每秒 $0.15(一支 8 秒約 $1.2)、標準版約每秒 $0.40(約 $3.2),只對成功的生成收費;Kling std 一支 5 秒約耗 3 units(約 $0.4)。下面就照「四個發現」來講。

發現一:最意外的 — 基本畫質那道牆,退了

先講最讓我意外的。第一篇我花了很多篇幅講「物理牆」:水要往低處流、液體要連貫、東西不能憑空出現。我這次特地設計了「手倒茶」這個鏡頭去戳它,等著看那種經典的翻車。

結果沒有。

Kling 3.0「手倒茶」:茶流連貫、杯子漸滿,沒有翻車。Veo 那一支也一樣穩(by aire 編輯室實測)

茶從壺口流下、注進杯子、液面慢慢上升 — 連貫、合理,兩家都沒出包。那支氛圍鏡頭(冒蒸汽的熱茶)更是漂亮,Veo 標準版甚至自帶環境音:

Veo 3.1 標準版「熱茶氛圍」:質感與打光都到位,還自帶環境音(by aire 編輯室實測)

我得修正第一篇給的印象:在短的、簡單的鏡頭上,基本畫質與基礎物理,這道牆已經明顯退讓了。半年前還會翻車的東西,現在多半過得去。這是真實的進步,該講就講。

順帶一提,Veo 的 Fast 版($1.2)畫質已經很接近標準版($3.2)。對需要反覆嘗試的人來說,先用 Fast 抽、抽到對的方向再用標準版收一支,是很划算的策略。

發現二:但「抽卡」是真的 — 你選不了「誰」

牆退了一道,可是我馬上撞到下一道,而且這一道硬得多。

我給 Veo 的「說話」鏡頭 prompt,逐字一模一樣地跑了兩次。我要的是「一個深色頭髮的女生,看著鏡頭說一句話」。它兩次都給了我一個深色頭髮、看著鏡頭說話的女生 — 沒錯。但是兩個完全不同的人:

同一句 prompt 跑兩次,Veo 生出兩個長相完全不同的女性 同一句 prompt、逐字不差,Veo 兩次生出兩個不同的人。你能描述「一個女生」,卻指定不了「就是這一個」(by aire 編輯室實測)

這就是第一篇講的「抽卡」,被我用最直白的方式驗證出來了。你能描述一個人,卻無法指定就是這一個人;你也無法要它穩定重現上一次的長相。對隨手玩玩的人,這不是問題;但對真實創作 — 你的代言人要在第 1 秒到第 20 秒長一樣、要跨鏡頭連戲 — 這是致命的。你不是在指揮一個演員,你是在拉霸。

而且既然每一抽都是新的隨機,你要一支「對的」成片,往往得抽好幾次。這件事直接連到後面要講的成本。

發現三:精準指揮,還做不到

如果說「抽卡」是你選不了結果,那「精準控制」就是你連過程都指揮不動。

我給的第四個鏡頭是一串精準指令:揮手、指向、鏡頭搖過去、而且牆上的時鐘要剛好指著 3 點。兩家的反應很有代表性 — 大動作的「編排」都跟上了:人有揮手、有指、鏡頭也搖過去揭示了時鐘。但那個精準的細節:

兩家都被要求時鐘剛好 3 點,Veo 約 3:40、Kling 約 10:08,都沒做到 同樣被要求「時鐘剛好 3 點」:Veo 的時針大概晃到 3 附近、但整體約 3:40;Kling 乾脆退回時鐘預設的 10:08。兩家都沒做到(by aire 編輯室實測)

Veo 至少把時針往 3 點的方向擺了,但整支看下來大約是 3:40,不是 3:00;Kling 則直接忽略指令,給了一個經典的「廣告時鐘」10:08。指向的方向、揮手的次數,也都不是精準對得上。

這正是第一篇那句話的現場版:它做得到 vibe,做不到精準的指揮。 你能要一個「大概在指時鐘」的畫面,但要不到「時鐘剛好 3 點」。創作裡那些真正要緊的精準 — 這顆要接上那顆、這個動作要卡在這一拍 — 還在牆的另一邊。

發現四:原生聲音,是 Veo 與 Kling 的分水嶺

第二篇提過,原生同步聲音是 Veo 從 2025 年起帶頭的差異化能力。這次實測,我親耳(嗯,親眼看波形)確認了這個差距還在。

同樣那句「說話」的 prompt,Veo 生出了一段真的口白 — 一句帶著前後靜默的清楚說話聲,對得上嘴型開合的時間點。Kling std 這支則是給了一段連續的背景聲,比較像環境音或配樂,而不是那句台詞。

Kling 3.0「說話」:嘴型有動、人臉也連戲,但聲音偏向連續的背景音,而非一句清楚口白(戴耳機聽差異最明顯)

要強調的是,這是同一種 std 設定下、同一句 prompt 的結果,不代表 Kling 做不到對白(它有更高階的原生音設定)。但「開箱即用、同樣的描述」這個公平條件下,Veo 的原生口白確實是個體感明顯的領先。

發現五:抽卡的真實成本

最後講錢,因為這是把前面所有發現綁在一起的那條線。

單支看,這些模型很便宜:Veo Fast 一支約 $1.2、標準版約 $3.2,Kling 一支約 $0.4。問題是,你幾乎不可能「一抽就中」。因為發現二:每一抽都是新的隨機,長相、動作、運鏡都會變。所以你要的不是「一支的錢」,是「抽到滿意為止那幾支的錢」。

換算下來,一支你真正敢交件的鏡頭,背後可能是五抽、十抽。Veo 標準版抽十次就是 $32;就算用 Fast 探方向、標準版收尾,一支精修鏡頭抓 $8–15 是常態。這不貴,但也不是「免費生影片」 — 它是一種抽卡稅:模型越不可控,你要為「可控」付的抽卡次數就越多。這也回頭解釋了第三篇我為什麼寧可用可控的靜態場景卡 — 在可控性還沒解決前,可控本身就是最貴的東西。

結語:牆退了一道,但「指揮」還沒來

把這次實測收攏成一句話:AI 視頻的地板,確實一夜之間被墊高了;但天花板,還在原地。

基本畫質、基礎物理 — 這道牆退了,而且退得比我預期多,該承認就承認。但真正卡住創作的兩件事,一個都沒解決:你選不了「誰」(抽卡),也指揮不動精準的動作(可控性)。借第一篇的話:我們還牢牢地待在「抽卡」,還沒走到「指揮」。

所以第三篇那條「用可控零件搭產線」的路,現在還是成立的 — 只是我會開始把某些「氛圍空鏡」「不需要指定人物的轉場」這類抽卡也無所謂的鏡頭,換成真的生成片段塞進產線。地板墊高了,可用的零件就多了一種。

至於那個「ChatGPT 時刻」,這次實測讓我更確定它的長相:它不會是某支更逼真的 demo(畫質早就夠了),而會是某一天,你發現自己能指定那個角色、指揮那顆鏡頭,而它穩穩照做、還能重現。在那天到來之前,我們手裡握著的,是一台越來越漂亮、但還不太聽話的拉霸機。


關於這次實測:四個鏡頭分別在 Veo 3.1(Gemini API,Fast 與標準版)與 Kling 3.0(國際版 Open Platform API,std 模式)上各跑一輪,共 10 支,全部為 aire 編輯室實際生成、未經挑選美化(抽卡變異那兩支即為同一 prompt 的連續兩抽)。成本與規格以 2026 年 6 月當下各官方計費為準,後續以官網為準。

常見問題

Veo 3.1 跟 Kling 3.0 現在真的能用了嗎?

看你要它做什麼。生一支 5–8 秒、沒有指定人物、不要求精準動作的氛圍鏡頭,兩家都已經相當可用,基本畫質甚至連簡單的液體物理都撐得住。但只要你要求「指定這個人」「動作完全照我說的」「時鐘剛好 3 點」這類精準控制,它們就會露餡。能交差的是 vibe,還交不出精準。

為什麼說 AI 視頻還是在「抽卡」?

因為同一句 prompt 跑兩次,你會拿到兩個不同的結果 — 我實測時,完全一樣的描述,Veo 兩次生出兩個長相完全不同的人。你能描述「一個女生」,卻無法指定「就是這一個女生」,也無法要它穩定重現上一次的成果。你是在抽,不是在指揮;要一支滿意的成片,往往得抽好幾次。

生一支 AI 影片要花多少錢?

以這次實測為例:Veo 3.1 Fast 約每秒 $0.15(8 秒約 $1.2),標準版約每秒 $0.40(8 秒約 $3.2),只對成功的生成收費;Kling 3.0 走 units 計費,std 模式一支 5 秒約 3 units(約 $0.4)。單支看很便宜,但「抽卡」會把實際成本墊高 — 你不是付一支的錢,是付「抽到滿意為止」那幾支的錢。

那 AI 視頻的「ChatGPT 時刻」到了嗎?

還沒。基本畫質的門檻確實一夜之間被拉高了,這很真實;但真正卡住創作的兩件事 — 你能不能指定「就是這個角色」、能不能讓它精準照你的分鏡走 — 都還沒解決。借用這個系列第一篇的話:我們還在「抽卡」,還沒到「指揮」。

📚 收進你的工具

For AI Reading Era

把這篇文章交給你日常用的工具——做研究、整理筆記,或當 AI 的 context。

 
延伸閱讀