AI 生圖的基本概念
AI 生圖原理入門:模型、提示詞、LoRA 分別是什麼?它們怎麼配合生成一張圖片?
AI 生圖(AI 繪圖)是怎麼運作的?這篇用「料理店比喻」拆解 AI 生圖的三大核心要素 —— 模型、提示詞、LoRA。理解它們各自的職責,你就能選對模型、寫出更有效的提示詞、組合 LoRA,生成接近腦海畫面的結果。想直接動手,可以先到提示詞基礎學語法、到模型概覽挑模型,再到提示詞速查表查標籤。
AI 生圖的三要素
生成一張 AI 圖片需要三樣東西配合 —— 模型、提示詞和 LoRA。
想像走進一家料理店:
模型是廚師。 有的廚師擅長壽司、有的擅長拉麵、有的擅長洋食 —— 你選的廚師決定了料理的基本風格。AI 模型也一樣,不同模型被訓練在不同的畫風和題材上:有的擅長精緻的日系動漫,有的擅長寫實風格,有的專門處理人物,有的對風景更拿手。選對模型,就像選對了廚師,後面的一切才會順利。PixAI 的模型針對日系動漫進行優化,對於各種畫風、任務、場景有非常突出的理解和表現。
提示詞是你的點單。 走進料理店,你得告訴廚師想吃什麼 —— 要豚骨湯底還是味噌?加不加溏心蛋?麵要硬一點還是軟一點?描述越具體,廚師越能做出你想要的味道。提示詞也是一樣:你描述的主體、動作、場景、氛圍越清楚,AI 越能畫出你腦海中的畫面。
LoRA 是口味示範。 同樣是拉麵,博多豚骨白湯和札幌味噌湯底風味截然不同。如果你跟廚師說「我想要那種味道」,他可能理解不了。但如果你給他一碗示範,他立刻就知道了。LoRA 就是這碗示範 —— 它是一小塊額外的訓練資料,教模型「某種特定風格長什麼樣」,讓生成結果更貼近你想要的方向。
模型架構
模型決定了畫面的基本風格和品質上限。同一段提示詞交給不同模型,產出的圖片可能完全不一樣。
| 架構 | 特點 | 提示詞方式 | 推薦模型 |
|---|---|---|---|
| DiT | 最強畫質,自然語言理解力佳 | 自然語言 + 標籤皆可 | Tsubaki.2 |
| SDXL | LoRA 資源豐富,標籤控制精確 | 以標籤為主 | Haruka v2 |
| 編輯模型 | 基於參考圖做風格轉換或修改 | 自然語言 + 參考圖 | Reference Pro |
| SD 1.5 | 早期架構,逐漸退場 | 以標籤為主 | — |
DiT 架構
DiT(Diffusion Transformer)是目前畫面品質最好的架構。最大的特點是對自然語言的理解力很強 —— 你可以直接用完整句子描述場景,不必只靠標籤。
- 光影與氛圍 — 能精準還原「逆光」「黃昏暖光」等複雜光線描述
- 人體結構 — 手指、姿勢的準確度大幅提升,多人物場景也能穩定處理
- 構圖理解 — 能理解「前景/背景」「俯視/仰視」等複雜空間關係

不知道用什麼模型?Mio 推薦 Tsubaki.2 喔!它是 PixAI 最新最強的 DiT 旗艦模型!
SDXL 架構
SDXL 是上一代主流架構,對標籤式提示詞的理解非常精確。它的優勢在於:
- 標籤控制力強 — 每個標籤的效果可預期,微調方便
- LoRA 生態豐富 — 社群累積了大量 SDXL 專用的 LoRA 資源,角色、畫風、服裝應有盡有
- 搭配靈活 — 多個 LoRA 疊加的相容性好,適合組合實驗
相比 DiT,SDXL 對自然語言的理解較弱,複雜的場景描述或多人物互動容易出錯。如果你習慣用標籤精確控制每個細節,SDXL 仍然是很好的選擇。
編輯模型
編輯模型和生成模型不同 —— 它不是從零生圖,而是基於你上傳的參考圖片進行風格轉換或局部修改。常見用法包括:
- 風格轉換 — 把照片轉成動漫風、水彩風等
- 局部修改 — 保留構圖但改變角色服裝、背景等元素
- 多圖參考 — 同時上傳多張參考圖,讓模型綜合理解你要的效果
SD 1.5
SD 1.5 是最早普及的架構,預設解析度只有 512×512,畫面精度和人體結構都不如新架構。目前社群仍有部分 SD 1.5 的 LoRA 資源,但新模型和新 LoRA 已很少基於此架構開發。新手直接從 DiT 或 SDXL 開始就好。
提示詞
提示詞是你告訴模型「畫什麼」的文字 —— 主體、動作、場景、氛圍,全靠它傳達。選好模型之後,出圖品質最大的變數就是提示詞。 PixAI 的大部分模型支援的最大提示詞長度是 4096。
自然語言提示詞
自然語言提示詞用完整的句子描述你想要的畫面,就像在跟人說話一樣。DiT 架構(如 Tsubaki.2)對自然語言的理解力特別強。
- 直覺易寫:不需要學習標籤規則,用日常語言就能描述
- 適合複雜場景:描述人物關係、氛圍和故事性時更自然流暢

標籤式提示詞
標籤式提示詞由一系列以逗號分隔的關鍵詞組成,每個標籤對應畫面中的一個元素或細節。SDXL 和 DiT 架構都支援這種寫法。
- 簡潔明瞭:用關鍵詞快速描述畫面的主要元素,AI 會自主補全
- 可控性強:能精確控制每個細節和風格


不會寫提示詞?PixAI 有專門的提示詞助手幫你優化!
LoRA
LoRA(Low-Rank Adaptation)是一種輕量的模型微調技術。在不換模型的前提下,給模型補一小塊額外知識,讓它學會特定的角色、畫風或概念。體積小、效果針對性強。
常見 LoRA 類型
| 類型 | 用途 | 例子 |
|---|---|---|
| 角色 LoRA | 畫出特定角色 | 原創角色 |
| 風格 LoRA | 模仿特定畫風 | 厚塗風、水彩 |
| 服裝 LoRA | 特定服裝設計 | JK 制服、婚紗、盔甲等 |
| 姿勢 LoRA | 特定動作或構圖 | 戰鬥姿勢、躺姿等 |
| 概念 LoRA | 特定概念或效果 | 發光效果、特殊背景等 |
| 加速 LoRA | 減少生成步數 | LCM、DMD2、PCM、Hyper-SD |

Mio 也有自己的 LoRA 喔。快去試試吧。
在 PixAI 上使用 LoRA
你可以在生成面板的 LoRA 區域搜尋並添加想要的 LoRA。預設可同時使用 3 個 LoRA,會員可以使用更多,詳情請參考會員方案。
每個 LoRA 都有一個權重(Weight)滑桿,數值越高,生成結果就越貼近該 LoRA 的特徵。PixAI 最高可調整至 2,但一般不建議超過 1。如果 LoRA 作者沒有特別說明,維持預設值即可。
PixAI 的模型市場提供了大量 LoRA 選擇,歡迎自行探索。
這頁對你有幫助嗎?
🎁 被採納的有效建議會獲得 5000 點數獎勵!