AI 生圖的基本概念

AI 生圖原理入門：模型、提示詞、LoRA 分別是什麼？它們怎麼配合生成一張圖片？

AI 生圖（AI 繪圖）是怎麼運作的？這篇用「料理店比喻」拆解 AI 生圖的三大核心要素 —— 模型、提示詞、LoRA。理解它們各自的職責，你就能選對模型、寫出更有效的提示詞、組合 LoRA，生成接近腦海畫面的結果。想直接動手，可以先到提示詞基礎學語法、到模型概覽挑模型，再到提示詞速查表查標籤。

AI 生圖的三要素

生成一張 AI 圖片需要三樣東西配合 —— 模型、提示詞和 LoRA。

想像走進一家料理店：

模型是廚師。 有的廚師擅長壽司、有的擅長拉麵、有的擅長洋食 —— 你選的廚師決定了料理的基本風格。AI 模型也一樣，不同模型各自以不同的畫風和題材訓練而成：有的擅長精緻的日系動漫，有的擅長寫實風格，有的專門處理人物，有的對風景更拿手。選對模型，就像選對了廚師，後面的一切才會順利。PixAI 的模型針對日系動漫進行優化，對於各種畫風、題材、場景有非常突出的理解和表現。

提示詞是你的點單。 走進料理店，你得告訴廚師想吃什麼 —— 要豚骨湯底還是味噌？加不加溏心蛋？麵要硬一點還是軟一點？描述越具體，廚師越能做出你想要的味道。提示詞也是一樣：你描述的主體、動作、場景、氛圍越清楚，AI 越能畫出你腦海中的畫面。

LoRA 是口味示範。 同樣是拉麵，博多豚骨白湯和札幌味噌湯底風味截然不同。如果你跟廚師說「我想要那種味道」，他可能理解不了。但如果你給他一碗示範，他立刻就知道了。LoRA 就是這碗示範 —— 它是一小塊額外的訓練資料，教模型「某種特定風格長什麼樣」，讓生成結果更貼近你想要的方向。

模型架構

模型決定了畫面的基本風格和品質上限。同一段提示詞交給不同模型，產出的圖片可能完全不一樣。

架構	特點	提示詞方式	推薦模型
DiT	最強畫質，自然語言理解力佳	自然語言 + 標籤皆可	Tsubaki.2
SDXL	LoRA 資源豐富，標籤控制精確	以標籤為主	Haruka v2
編輯模型	基於參考圖做風格轉換或修改	自然語言 + 參考圖	Reference Pro
SD 1.5	早期架構，逐漸退場	以標籤為主	—

DiT 架構

DiT（Diffusion Transformer）是目前畫面品質最好的架構。最大的特點是對自然語言的理解力很強 —— 你可以直接用完整句子描述場景，不必只靠標籤。

光影與氛圍 — 能精準還原「逆光」「黃昏暖光」等複雜光線描述
人體結構 — 手指、姿勢的準確度大幅提升，多人物場景也能穩定處理
構圖理解 — 能理解「前景／背景」「俯視／仰視」等複雜空間關係

Mio:

不知道用什麼模型？Mio 推薦 Tsubaki.2 喔！它是 PixAI 最新最強的 DiT 旗艦模型！

SDXL 架構

SDXL 是上一代主流架構，對標籤式提示詞的理解非常精確。它的優勢在於：

標籤控制力強 — 每個標籤的效果可預期，微調方便
LoRA 生態豐富 — 社群累積了大量 SDXL 專用的 LoRA 資源，角色、畫風、服裝應有盡有
搭配靈活 — 多個 LoRA 疊加的相容性好，適合組合實驗

和 DiT 相比，SDXL 對自然語言的理解較弱，複雜的場景描述或多人物互動容易出錯。如果你習慣用標籤精確控制每個細節，SDXL 仍然是很好的選擇。

編輯模型

編輯模型和生成模型不同 —— 它不是從零生圖，而是基於你上傳的參考圖片進行風格轉換或局部修改。常見用法包括：

風格轉換 — 把照片轉成動漫風、水彩風等
局部修改 — 保留構圖但改變角色服裝、背景等元素
多圖參考 — 同時上傳多張參考圖，讓模型綜合理解你要的效果

SD 1.5

SD 1.5 是最早普及的架構，預設解析度只有 512×512，畫面精度和人體結構都不如新架構。目前社群仍有部分 SD 1.5 的 LoRA 資源，但新模型和新 LoRA 已很少基於此架構開發。新手直接從 DiT 或 SDXL 開始就好。

提示詞

提示詞是你告訴模型「畫什麼」的文字 —— 主體、動作、場景、氛圍，全靠它傳達。選好模型之後，出圖品質最大的變數就是提示詞。 PixAI 的大部分模型支援的最大提示詞長度是 4096。

自然語言提示詞

自然語言提示詞用完整的句子描述你想要的畫面，就像在跟人說話一樣。DiT 架構（如 Tsubaki.2）對自然語言的理解力特別強。

直覺易寫：不需要學習標籤規則，用日常語言就能描述
適合複雜場景：描述人物關係、氛圍和故事性時更自然流暢

自然語言提示詞範例

角色動作場景

複製並跳轉 PixAI

Mio from in a navy sailor uniform leans forward with both hands resting on a classroom desk, her face lit by warm afternoon sunlight streaming through the window behind her, wearing a gentle smile as she looks directly ahead.

標籤式提示詞

標籤式提示詞由一系列以逗號分隔的關鍵詞組成，每個標籤對應畫面中的一個元素或細節。SDXL 和 DiT 架構都支援這種寫法。

簡潔明瞭：用關鍵詞快速描述畫面的主要元素，其餘細節由 AI 自動補齊
可控性強：能精確控制每個細節和風格

標籤式提示詞範例

角色動作場景

複製並跳轉 PixAI

pixai_mio, navy sailor uniform, upper body, front view, leaning on desk, hands on table, gentle smile, direct gaze, sunlight on face, classroom window, warm lighting

Mio:

不會寫提示詞？PixAI 有專門的提示詞助手幫你優化！

LoRA

LoRA（Low-Rank Adaptation）是一種輕量的模型微調技術。在不換模型的前提下，給模型補一小塊額外知識，讓它學會特定的角色、畫風或概念。體積小、效果針對性強。

常見 LoRA 類型

類型	用途	例子
角色 LoRA	畫出特定角色	原創角色
風格 LoRA	模仿特定畫風	厚塗風、水彩
服裝 LoRA	特定服裝設計	JK 制服、婚紗、盔甲等
姿勢 LoRA	特定動作或構圖	戰鬥姿勢、躺姿等
概念 LoRA	特定概念或效果	發光效果、特殊背景等
加速 LoRA	減少生成步數	LCM、DMD2、PCM、Hyper-SD

Mio:

Mio 也有自己的 LoRA 喔。快去試試吧。

在 PixAI 上使用 LoRA

你可以在生成面板的 LoRA 區域搜尋並加入想要的 LoRA。預設可同時使用 3 個 LoRA，會員可以使用更多，詳情請參考會員方案。

每個 LoRA 都有一個權重（Weight）滑桿，數值越高，生成結果就越貼近該 LoRA 的特徵。PixAI 最高可調整至 2，但一般不建議超過 1。如果 LoRA 作者沒有特別說明，維持預設值即可。

PixAI 的模型市場提供了大量 LoRA 選擇，歡迎自行探索。

這頁對你有幫助嗎？

🎁 被採納的有效建議會獲得 5000 點數獎勵！

AI 生圖的基本概念

本頁內容