您在過去幾個月以來可能已經透過網路看到許多有關AI人工智慧及其生成內容的社群媒體貼文、新聞文章和影片。OpenAI的ChatGPT更是迄今最受歡迎的一項,其聊天式介面可以讓使用者與人工智慧模型互動,藉由提出問題,指導其執行任務,編寫程式,抑或是撰寫句子、段落,甚至整篇文章!
除了ChatGPT等基於文字的模型之外,也有更多視覺形式的AI模型大量出現,這些模型可以根據指令生成圖像(如MidJourney、Stable Diffusion、DALL-E 等)。您可以要求這些模型根據以下指令產生出數位藝術:
指令 Prompt:
太空戰艦、使物體分解成原子粒子、電影鏡頭 + 動態構圖,令人驚嘆的細節、銳化、細節 + 複雜的細節 + 專業照明、電影照明 + 35mm + 變形 + lightroom + 電影攝影 + 散景+ 鏡頭光暈 + 膠片顆粒 + HDR10 + 8K + Roger Deakins,((電影般的))、完美構圖、超現實、超詳細、8k、高品質、趨勢藝術、trending on artstation、銳利焦點、工作室照片、複雜的細節、高度詳細
負面指令 Negative Prompt:
(3d、卡通、動漫、草圖)、(最差品質:2)、(低品質:2)、(正常品質:2)、低解析度、正常品質、((單色))、((灰度)))、不好的解頗學、看不到、被切斷、醜陋、畸形、突變、((年輕))、EasyNegative、繪畫、草圖、(最差質量:2)、(低質量:2)、(正常質量:2)、低解析度、正常質量,((單色)),((灰階)),皮膚斑點,痤瘡,皮膚瑕疵,老年斑,性器官,多餘的手指,缺少的手指,(醜陋的眼睛,變形的虹膜,變形的瞳孔,融合的嘴唇和牙齒:1.2)、(無細節的皮膚,半寫實,cgi,3d,渲染,草圖,卡通,繪畫,動漫:1.2),文本,特寫,裁剪,出框,品質最差,品質低,jpeg偽影,醜陋,重複、病態、殘缺、額外的手指、變異的手、畫得不好的手、畫得不好的臉、突變、變形、模糊、脫水、不良的解剖構造、不良的比例、額外的肢體、複製的臉、毀容、過胖的比例
繪圖步數:
30、Sampler: DPM++ 2M Karras、CFG 比例:7、Seed:189104945、尺寸:1024x1024、Model hash:31e35c80fc、模型:sd_xl_base_1.0、剪輯跳過:2,版本:v1.5.1 ;
這是我們根據該上述指令在其中一個模型中所得到的結果:
可以理解的是,擁有如此強大的工具已經讓整個產業發生了翻天覆地的變化。雖然在藝術、圖像、寫作和創造力方面目前沒有任何人工智慧模型能夠真正複製人類,但在許多職業已經開始看到影響。
然而,人工智慧生成的內容仍然僅用作創作廣泛內容(文字、程式碼片段、圖像或圖形)的輔助,因為它在各種主題上可能會發生非事實性的確信錯誤(Confidently Wrong)。事實上,
Google的 Bard AI聊天機器人在其第一個演示中就犯了一個事實錯誤!
儘管如此,它們的實用性只會隨著時間的推移而發展。我們已經可以看到新的人工智慧模型的出現,這些模型對先前的版本進行了改進。
VRAM 和 AI 模型:需要多少才足夠呢?
當今可用的一些人工智慧工具因其開源性質而脫穎而出——使用戶、企業和組織能夠在其硬體上直接使用這些模型,而無需任何隱私或安全問題。
儘管大型企業並不缺乏自行託管這些模型的基礎設施或資金,但對於想要利用人工智慧的一般使用者和專業人士可能會面臨挑戰。AI模型在當今硬體上可能超慢甚至完全不支援的原因之一,就是這些模型對VRAM的要求。
Stable Diffusion XL最低要求
Stability AI 新發布的 Stable Diffusion XL (SDXL) 模型就是個例子。該公司將其描述為迄今為止“最先進”的版本。
現在,它可以使用更簡短的提示來產生改善後的面孔、清晰易讀的文字和更具美感的藝術作品。然而,這些提升的功能是以硬體成本為代價的,特別是VRAM需求和GPU效能。
那麼,到底需要什麼樣的硬體才能在居家設備上也能享受SDXL的改進呢?
首先,Stability AI建議使用Nvidia顯示卡來完成此任務,因此我們將使用當前和上一代的產品來讓您更好去了解可以從中獲得怎樣的效能。儘管Stability AI在
其發布的新聞稿中要求至少配備8 GB VRAM,但我們也想了解更大VRAM容量的效能。
簡單遵循最低標準(或稍微多一點)是否會極大地影響效能?或是更強大的GPU是否可以彌補VRAM的不足?/div>
為了找到這些問題的答案,我們在內部實驗室進行了測試,看看它在當前和上一代硬體上如何運行。這些數據應該可以幫助您在購買下一張顯示卡時做出更好的購買依據及決定。
GeForce 顯示卡的 SDXL GPU 基準測試
接下來的測試,將使用RTX 4060 Ti 16 GB、RTX 3080 10 GB和RTX 3060 12 GB顯示卡。
首先,讓我們從使用預設參數的簡單藝術作品開始,以讓我們的GPU得到良好的鍛鍊。
1024 x 1024
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
11.4 GB
16.0 s
RTX 3080 10G
9.7 GB
65.1 s
RTX 3060 12G
11.7 GB
27.2 s
產生的結果可能會讓平時僅關注遊戲基準的人來說有點意外。
RTX 4060 Ti 16GB具有16GB VRAM,只需16秒即可輕鬆完成任務。憑藉著12GB VRAM,RTX 3060 12GB以27.2秒緊跟其後。雖然不是最好,但仍然相當不錯。
比較可惜的是,RTX 3080因為VRAM較少而使其原始馬力變得毫無用處,時間非常緩慢,需要65.1 秒!因此可以了解,當今RTX 4060 Ti 16GB取代了高階上一代RTX 3080,影像產生時間快了約4倍。
SDXL基準:1024x1024 + LoRA
讓我們再玩大一點吧?緊接著是進行LoRA測試。
LoRA或低階適應技術可讓您根據特定的藝術風格或角色微調穩定擴散模型。然而,這將對您的 VRAM造成更大的負擔,讓我們看看這幾張顯卡在這部分表現如何。
讓我們使用LoRA生成一件「Cybergirl」藝術作品,來看看擁有剛剛好的VRAM和擁有充裕的VRAM顯示卡之間存在多大差異。
1024 x 1024 + LoRA
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
15.5 GB
17.0 s
RTX 3080 10G
9.6 GB
98.8 s
RTX 3060 12G
11.5 GB
26.8 s
在這裡,RTX 3080很容易被具有更多VRAM 的60系顯示卡超越。RTX 4060 Ti 16GB再次名列前茅,生成影像僅需17 秒,而RTX 3080則以蝸牛般的98.8秒遠遠落後。
SDXL 基準:1024x1024 + LoRA + ControlNet
現在讓我們使用ControlNet為60系顯卡增加一些附加條件。
首先,ControlNet是什麼?簡單來說,它是一個神經網路模型,您可以使用它來進一步控制和微調穩定擴散合成(輸出)。它可以讓您告訴Stable Diffusion,您正在透過對輸出添加更多額外條件來為您想要的設計提供更清晰的參考,進一步細節化結果以更緊密地契合您的需求。
請至 ControlNet GitHub頁面,了解有關如何設定的更多詳細資訊和文件!
1024 x 1024 + LoRA + controlnet
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
15.2 GB
48.7 s
RTX 3060 12G
11.5 GB
89.2 s
現在競爭已經非常接近,RTX 3080幾乎縮小了與RTX 4060 TI 16 GB的差距,並最終徹底擊敗了 RTX 3060 12 GB。但,即使在這種超級運算密集型場景中,最終RTX 4060 Ti 16GB仍以些微的優勢佔據首位。
SDXL 基準:1024x1024 + 升級
現在,讓我們試著進行一些升級。我們的60級顯卡還能跟上RTX 3080相當大的升級馬力嗎?對於這些測試,我們將使用真正增強超解析度生成對抗網絡,也以其更容易理解的首字母縮寫——R-ESRGAN 4x+而聞名。
1024 x 1024 upscale x2
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
10.8 GB
5.5 s
RTX 3060 12G
10.4 GB
7.8 s
對於放大至2倍的1024x1024影像,RTX 4060 Ti 16 GB的速度超過了RTX 3080和RTX 3060 12 GB,只需 5.5 秒即可完成,比RTX 3080 10 GB產生影像的速度快36%。
1024 x 1024 upscale x4
VRAM Size(GB)
Speed(sec.)
RTX 4060 Ti 16G
10.5 GB
10 s
RTX 3060 12G
10.4 GB
12.3 s
透過使用R-ESRGAN 4x+升頻器執行4倍升頻任務,RTX 4060 Ti 16 GB與競爭對手之間的差距進一步縮小。現在,RTX 4060 Ti 16 GB完成任務的速度比RTX 3080 10 GB快23%,而RTX 3060 12 GB 現在與RTX 3080相差不遠。儘管如此,RTX 4060 Ti 16GB仍保持領先地位。
從最後幾組結果可以看出,升級工作量越密集,RTX 3080就越接近60級顯卡的競爭。
最適合Stable Diffusion XL的顯示卡
對於像Stable Diffusion XL這樣的AI模型,擁有足夠的VRAM是非常重要的。基於上述的測試,輕易地即可判斷出,RTX 4060 Ti 16GB是目前相當適合滿足AI影像生成需求而購買的顯示卡。
您可以前往
Stability AI的GitHub頁面,以尋找更多有關SDXL和Stability AI的擴散模型的資訊。