AI 画像生成の仕組み

AI 画像生成の入門 —— モデル・プロンプト・LoRA がそれぞれ何で、どう連携して 1 枚の画像を生み出すのか。

AI 画像生成は実際どう動いているの？本ページではレストランの比喩を使って、3 つの中心要素 —— モデル・プロンプト・LoRA —— をひも解きます。それぞれの役割を理解すれば、適切なモデルを選び、効果的なプロンプトを書き、LoRA を組み合わせて思い描く絵に近づけるようになります。すぐに始めたい方は、構文を学べるプロンプト基礎、モデル選びの参考になるモデル概要、タグ辞典として使えるプロンプトチートシートへどうぞ。

三本柱

すべての AI 画像は 3 つの要素が連携して生まれます —— モデル・プロンプト・（必要に応じて）LoRA。

レストランに入ったときをイメージしてください。

モデルは料理人。寿司職人もいればラーメンの達人もいるし、洋食シェフもいる —— 選ぶ料理人によって、出てくる料理の基本路線が決まります。AI モデルも同じです。それぞれが異なる画風・テーマで学習されており、洗練されたアニメイラストが得意なものもあれば、実写風が得意、人物が得意、風景が得意なものもあります。料理人を上手く選べば、その後の作業は格段に楽になります。PixAI のモデルはアニメイラスト向けにチューニングされており、幅広いスタイル・タスク・シーンに対して強力な理解力と表現力を発揮します。

プロンプトは注文。レストランに入ったら、料理人に何が欲しいか伝える必要があります —— 豚骨か味噌か？煮卵は？麺はかため？やわらかめ？具体的に伝えるほど、出てくる料理は理想に近づきます。プロンプトも同じで、被写体・動作・シーン・雰囲気を明確にするほど、AI はあなたの頭の中の画像を正確に描けるようになります。

LoRA は味のサンプル。同じラーメンでも博多豚骨と札幌味噌は全く違う味。「あの味が欲しい」と説明だけしても料理人には伝わらないかもしれません。でも実物を一杯渡せば、瞬時に理解してもらえます。LoRA はその「実物」 —— 特定のスタイルがどう見えるかをモデルに教える、ごく小さな追加学習データです。これによって仕上がりが狙ったスタイルに近づきます。

モデルアーキテクチャ

モデルは絵柄のベースラインと品質の上限を決めます。同じプロンプトでも、別のモデルに渡せば全く違う絵が出てきます。

アーキテクチャ	強み	プロンプトの書き方	おすすめモデル
DiT	最高の画質、強力な自然言語理解	自然言語もタグも両方対応	Tsubaki.2
SDXL	豊富な LoRA エコシステム、精密なタグコントロール	タグベース	Haruka v2
編集モデル	参照画像によるスタイル変換や部分編集	自然言語 + 参照画像	Reference Pro
SD 1.5	旧世代アーキテクチャ。徐々に役目を終えつつあります	タグベース	—

DiT

DiT（Diffusion Transformer）は現時点で最も画質が高いアーキテクチャです。最大の利点は 自然言語理解力の高さ —— タグだけに頼らず、まとまった文章でシーンを描写できます。

照明と雰囲気 —— 「逆光」「夕焼けの暖色光」のような複雑なライティング指示を正確に拾います
人体構造 —— 手指やポーズの精度が大幅に向上。複数キャラクターのシーンでも崩れにくい
構図 —— 前景／背景や上下のアングルなど、空間関係をきちんと理解します

Mio:

どのモデルを選んだらいいかわからない？Mio のおすすめは Tsubaki.2！PixAI 最新最強の DiT フラッグシップです。

SDXL

SDXL は前世代の主流アーキテクチャで、タグベースのプロンプト に対する理解が非常に精密です。強みは次のとおりです。

強力なタグコントロール —— タグごとに効果が予測可能で、細かいチューニングがしやすい
豊富な LoRA エコシステム —— SDXL 専用のキャラクター・スタイル・衣装 LoRA がコミュニティに大量に蓄積されています
柔軟な重ねがけ —— 複数の LoRA を組み合わせやすく、組み合わせ実験に向いています

DiT に比べると自然言語理解は弱め。複雑なシーン描写や複数キャラの絡みではミスが起きやすくなります。ただし、タグで細部までコントロールするスタイルが好きなら、SDXL は今でも有力な選択肢です。

編集モデル

編集モデルは生成モデルとは動作が異なり、ゼロから絵を描くわけではありません。アップロードした参照画像に対してスタイル変換や部分編集を施します。代表的な使い方：

スタイル変換 —— 写真をアニメ調や水彩風にする
部分編集 —— 構図はそのままに、衣装や背景だけを差し替える
複数画像参照 —— 複数の参照を同時にアップして、要素を組み合わせさせる

SD 1.5

SD 1.5 は最初に広く採用されたアーキテクチャです。ネイティブ解像度は 512×512 と低く、画像の精細さや人体構造の正確さは新世代に及びません。コミュニティには今も SD 1.5 LoRA が残っていますが、新規モデルや LoRA はほとんど作られなくなりました。これから始めるなら、DiT か SDXL がおすすめです。

プロンプト

プロンプトは、モデルに 何を描かせるか を伝える手段 —— 被写体・動作・シーン・雰囲気のすべてを含みます。モデルを選んだあと、プロンプトが結果を最も大きく左右する変数 です。 PixAI のほとんどのモデルは最大 4096 文字までのプロンプトをサポートします。

自然言語プロンプト

自然言語プロンプトは、人に話しかけるように欲しい絵をまとまった文章で描写するスタイルです。Tsubaki.2 のような DiT モデルは特に得意としています。

直感的でシンプル：タグのルールを覚える必要なし。誰かに説明するように書けば OK
複雑なシーンに強い：キャラの関係性、雰囲気、ストーリー性がより自然に伝わる

自然言語プロンプトの例

キャラクターポーズシーン

コピーして PixAI へ

Mio from in a navy sailor uniform leans forward with both hands resting on a classroom desk, her face lit by warm afternoon sunlight streaming through the window behind her, wearing a gentle smile as she looks directly ahead.

タグベースのプロンプト

タグベースのプロンプトは、コンマ区切りのキーワードを並べる書き方で、各タグが画像の要素や細部 1 つに対応します。SDXL も DiT もこの方式に対応しています。

簡潔で直接的：キーワードで主要素を指定し、残りは AI が補完
コントロール性が高い：細部やスタイルを 1 つずつ正確に指定できる

タグベースのプロンプトの例

キャラクターポーズシーン

コピーして PixAI へ

pixai_mio, navy sailor uniform, upper body, front view, leaning on desk, hands on table, gentle smile, direct gaze, sunlight on face, classroom window, warm lighting

Mio:

プロンプトをどう書いたらいいかわからない？PixAI のプロンプトヘルパーが整えてくれます！

LoRA

LoRA（Low-Rank Adaptation）は軽量なモデルファインチューニング手法です。ベースモデルを丸ごと差し替えずに、ちょっとした追加知識を加えることで、特定のキャラクター・スタイル・コンセプトを描けるようにします。LoRA はファイルサイズが小さく、効果はピンポイントです。

よくある LoRA の種類

種類	用途	例
キャラクター LoRA	特定のキャラを描く	オリジナルキャラ
スタイル LoRA	特定の画風を真似る	厚塗り、水彩
衣装 LoRA	特定の衣装デザイン	JK 制服、ウェディングドレス、鎧
ポーズ LoRA	特定のポーズや構図	戦闘ポーズ、寝そべり
コンセプト LoRA	特定の概念や演出	発光エフェクト、特殊背景
スピード LoRA	サンプリングステップ数を削減	LCM、DMD2、PCM、Hyper-SD

Mio:

Mio にも専用 LoRA があるんですよ！ぜひ試してみて。

PixAI で LoRA を使う

生成パネルの LoRA セクションで、好きな LoRA を検索して追加できます。デフォルトでは同時に 3 つ の LoRA を重ねがけ可能。メンバーはより多く使えます —— 詳しくはメンバーシッププランをご覧ください。

各 LoRA には Weight スライダーがあります —— 値を上げるほど、その LoRA の特徴が結果に強く反映されます。PixAI では最大 2 まで設定できますが、1 を超える値は通常おすすめしません。LoRA の作者から特に指示がなければ、デフォルト値で問題ありません。

PixAI のモデルマーケットには大量の LoRA が並んでいるので、ぜひ覗いてみてください。

このページは役に立ちましたか？

🎁 採用された有効なご提案には5,000クレジットを進呈します！

AI 画像生成の仕組み

目次