AI 画像生成の仕組み
AI 画像生成の入門 —— モデル・プロンプト・LoRA がそれぞれ何で、どう連携して 1 枚の画像を生み出すのか。
AI 画像生成は実際どう動いているの?本ページではレストランの比喩を使って、3 つの中心要素 —— モデル・プロンプト・LoRA —— をひも解きます。それぞれの役割を理解すれば、適切なモデルを選び、効果的なプロンプトを書き、LoRA を組み合わせて思い描く絵に近づけるようになります。すぐに始めたい方は、構文を学べる プロンプト基礎、モデル選びの参考になる モデル概要、タグ辞典として使える プロンプトチートシート へどうぞ。
三本柱
すべての AI 画像は 3 つの要素が連携して生まれます —— モデル・プロンプト・(必要に応じて)LoRA。
レストランに入ったときをイメージしてください:
モデルは料理人。寿司職人もいればラーメンの達人もいるし、洋食シェフもいる —— 選ぶ料理人によって、出てくる料理の基本路線が決まります。AI モデルも同じです。それぞれが異なる画風・テーマで学習されており、洗練された日本風アニメが得意なものもあれば、実写風が得意、人物が得意、風景が得意なものもあります。料理人を上手く選べば、その後の作業は格段に楽になります。PixAI のモデルは日本風アニメ向けにチューニングされており、幅広いスタイル・タスク・シーンに対して強力な理解力と表現力を発揮します。
プロンプトは注文。レストランに入ったら、料理人に何が欲しいか伝える必要があります —— 豚骨か味噌か?煮卵は?麺はかため?やわらかめ?具体的に伝えるほど、出てくる料理は理想に近づきます。プロンプトも同じで、被写体・動作・シーン・雰囲気を明確にするほど、AI はあなたの頭の中の画像を正確に描けるようになります。
LoRA は味のサンプル。同じラーメンでも博多豚骨と札幌味噌は全く違う味。「あの味が欲しい」と説明だけしても料理人には伝わらないかもしれません。でも実物を一杯渡せば、瞬時に理解してもらえます。LoRA はその「実物」 —— 特定のスタイルがどう見えるかをモデルに教える、ごく小さな追加学習データです。これによって仕上がりが狙ったスタイルに近づきます。
モデルアーキテクチャ
モデルは絵柄のベースラインと品質の上限を決めます。同じプロンプトでも、別のモデルに渡せば全く違う絵が出てきます。
| アーキテクチャ | 強み | プロンプトの書き方 | おすすめモデル |
|---|---|---|---|
| DiT | 最高の画質、強力な自然言語理解 | 自然言語もタグも両方対応 | Tsubaki.2 |
| SDXL | 豊富な LoRA エコシステム、精密なタグコントロール | タグベース | Haruka v2 |
| 編集モデル | 参照画像によるスタイル変換やローカル編集 | 自然言語 + 参照画像 | Reference Pro |
| SD 1.5 | 旧世代アーキテクチャ。徐々に役目を終えつつあります | タグベース | — |
DiT
DiT(Diffusion Transformer)は現時点で最も画質が高いアーキテクチャです。最大の利点は 自然言語理解力の高さ —— タグだけに頼らず、まとまった文章でシーンを描写できます。
- 照明と雰囲気 —— 「逆光」「夕焼けの暖色光」のような複雑なライティング指示を正確に拾います
- 解剖 —— 手指やポーズの精度が大幅に向上。複数キャラクターのシーンでも崩れにくい
- 構図 —— 前景/背景や上下のアングルなど、空間関係をきちんと理解します

どのモデルを選んだらいいかわからない?Mio のおすすめは Tsubaki.2!PixAI 最新最強の DiT フラッグシップです。
SDXL
SDXL は前世代の主流アーキテクチャで、タグベースのプロンプト に対する理解が非常に精密です。強みは:
- 強力なタグコントロール —— タグごとに効果が予測可能で、細かいチューニングがしやすい
- 豊富な LoRA エコシステム —— SDXL 専用のキャラクター・スタイル・衣装 LoRA がコミュニティに大量に蓄積されています
- 柔軟な重ねがけ —— 複数の LoRA を組み合わせやすく、組み合わせ実験に向いています
DiT に比べると自然言語理解は弱め。複雑なシーン描写や複数キャラの相互作用ではミスが起きやすくなります。ただし、タグで細部までコントロールするスタイルが好きなら、SDXL は今でも有力な選択肢です。
編集モデル
編集モデルは生成モデルとは動作が異なり、ゼロから絵を描くわけではありません。アップロードした参照画像に対してスタイル変換やローカル編集を施します。代表的な使い方:
- スタイル変換 —— 写真をアニメ調や水彩風にする
- ローカル編集 —— 構図はそのままに、衣装や背景だけを差し替える
- 複数画像参照 —— 複数の参照を同時にアップして、要素を組み合わせさせる
SD 1.5
SD 1.5 は最初に広く採用されたアーキテクチャです。ネイティブ解像度は 512×512 と低く、画像精度や解剖は新世代に及びません。コミュニティには今も SD 1.5 LoRA が残っていますが、新規モデルや LoRA はほとんど作られなくなりました。これから始めるなら、DiT か SDXL がおすすめです。
プロンプト
プロンプトは、モデルに 何を描かせるか を伝える手段 —— 被写体・動作・シーン・雰囲気のすべてを含みます。モデルを選んだあと、プロンプトが結果を最も大きく左右する変数 です。 PixAI のほとんどのモデルは最大 4096 文字までのプロンプトをサポートします。
自然言語プロンプト
自然言語プロンプトは、人に話しかけるように欲しい絵をまとまった文章で描写するスタイルです。Tsubaki.2 のような DiT モデルは特に得意としています。
- 直感的でシンプル:タグのルールを覚える必要なし。誰かに説明するように書けば OK
- 複雑なシーンに強い:キャラの関係性、雰囲気、ストーリー性がより自然に伝わる

タグベースのプロンプト
タグベースのプロンプトは、コンマ区切りのキーワードを並べる書き方で、各タグが画像の要素や細部 1 つに対応します。SDXL も DiT もこの方式に対応しています。
- 簡潔で直接的:キーワードで主要素を指定し、残りは AI が補完
- コントロール度が高い:細部やスタイルを 1 つずつ正確に指定できる


プロンプトをどう書いたらいいかわからない?PixAI の プロンプトヘルパー が整えてくれます!
LoRA
LoRA(Low-Rank Adaptation)は軽量なモデルファインチューニング手法です。ベースモデルを丸ごと差し替えずに、ちょっとした追加知識を加えることで、特定のキャラクター・スタイル・コンセプトを描けるようにします。LoRA はファイルサイズが小さく、効果はピンポイントです。
よくある LoRA の種類
| 種類 | 用途 | 例 |
|---|---|---|
| キャラクター LoRA | 特定のキャラを描く | オリジナルキャラ |
| スタイル LoRA | 特定の画風を真似る | 厚塗り、水彩 |
| 衣装 LoRA | 特定の衣装デザイン | JK 制服、ウェディングドレス、鎧 |
| ポーズ LoRA | 特定のポーズや構図 | 戦闘ポーズ、寝そべり |
| コンセプト LoRA | 特定の概念や演出 | 発光エフェクト、特殊背景 |
| スピード LoRA | サンプリングステップ数を削減 | LCM、DMD2、PCM、Hyper-SD |

Mio にも専用 LoRA があるんですよ!ぜひ試してみて。
PixAI で LoRA を使う
生成パネルの LoRA セクションで、好きな LoRA を検索して追加できます。デフォルトでは同時に 3 つ の LoRA を重ねがけ可能。メンバーはより多く使えます —— 詳しくは メンバーシッププラン をご覧ください。
各 LoRA には Weight スライダーがあります —— 値を上げるほど、その LoRA の特徴が結果に強く反映されます。PixAI では最大 2 まで設定できますが、1 を超える値は通常おすすめしません。LoRA の作者から特に指示がなければ、デフォルト値で問題ありません。
PixAI の モデルマーケット には大量の LoRA が並んでいるので、ぜひ覗いてみてください。
このページは役に立ちましたか?
🎁 採用された有効なご提案には5,000クレジットを進呈します!