PixAIDocs
プロンプト

AI 画像生成の仕組み

AI 画像生成の入門 —— モデル・プロンプト・LoRA がそれぞれ何で、どう連携して 1 枚の画像を生み出すのか。

AI 画像生成は実際どう動いているの?本ページではレストランの比喩を使って、3 つの中心要素 —— モデル・プロンプト・LoRA —— をひも解きます。それぞれの役割を理解すれば、適切なモデルを選び、効果的なプロンプトを書き、LoRA を組み合わせて思い描く絵に近づけるようになります。すぐに始めたい方は、構文を学べる プロンプト基礎、モデル選びの参考になる モデル概要、タグ辞典として使える プロンプトチートシート へどうぞ。

三本柱

すべての AI 画像は 3 つの要素が連携して生まれます —— モデルプロンプト・(必要に応じて)LoRA

レストランに入ったときをイメージしてください:

モデルは料理人。寿司職人もいればラーメンの達人もいるし、洋食シェフもいる —— 選ぶ料理人によって、出てくる料理の基本路線が決まります。AI モデルも同じです。それぞれが異なる画風・テーマで学習されており、洗練された日本風アニメが得意なものもあれば、実写風が得意、人物が得意、風景が得意なものもあります。料理人を上手く選べば、その後の作業は格段に楽になります。PixAI のモデルは日本風アニメ向けにチューニングされており、幅広いスタイル・タスク・シーンに対して強力な理解力と表現力を発揮します。

プロンプトは注文。レストランに入ったら、料理人に何が欲しいか伝える必要があります —— 豚骨か味噌か?煮卵は?麺はかため?やわらかめ?具体的に伝えるほど、出てくる料理は理想に近づきます。プロンプトも同じで、被写体・動作・シーン・雰囲気を明確にするほど、AI はあなたの頭の中の画像を正確に描けるようになります。

LoRA は味のサンプル。同じラーメンでも博多豚骨と札幌味噌は全く違う味。「あの味が欲しい」と説明だけしても料理人には伝わらないかもしれません。でも実物を一杯渡せば、瞬時に理解してもらえます。LoRA はその「実物」 —— 特定のスタイルがどう見えるかをモデルに教える、ごく小さな追加学習データです。これによって仕上がりが狙ったスタイルに近づきます

モデルアーキテクチャ

モデルは絵柄のベースラインと品質の上限を決めます。同じプロンプトでも、別のモデルに渡せば全く違う絵が出てきます。

アーキテクチャ強みプロンプトの書き方おすすめモデル
DiT最高の画質、強力な自然言語理解自然言語もタグも両方対応Tsubaki.2
SDXL豊富な LoRA エコシステム、精密なタグコントロールタグベースHaruka v2
編集モデル参照画像によるスタイル変換やローカル編集自然言語 + 参照画像Reference Pro
SD 1.5旧世代アーキテクチャ。徐々に役目を終えつつありますタグベース

DiT

DiT(Diffusion Transformer)は現時点で最も画質が高いアーキテクチャです。最大の利点は 自然言語理解力の高さ —— タグだけに頼らず、まとまった文章でシーンを描写できます。

  • 照明と雰囲気 —— 「逆光」「夕焼けの暖色光」のような複雑なライティング指示を正確に拾います
  • 解剖 —— 手指やポーズの精度が大幅に向上。複数キャラクターのシーンでも崩れにくい
  • 構図 —— 前景/背景や上下のアングルなど、空間関係をきちんと理解します
Mio
Mio:

どのモデルを選んだらいいかわからない?Mio のおすすめは Tsubaki.2!PixAI 最新最強の DiT フラッグシップです。

SDXL

SDXL は前世代の主流アーキテクチャで、タグベースのプロンプト に対する理解が非常に精密です。強みは:

  • 強力なタグコントロール —— タグごとに効果が予測可能で、細かいチューニングがしやすい
  • 豊富な LoRA エコシステム —— SDXL 専用のキャラクター・スタイル・衣装 LoRA がコミュニティに大量に蓄積されています
  • 柔軟な重ねがけ —— 複数の LoRA を組み合わせやすく、組み合わせ実験に向いています

DiT に比べると自然言語理解は弱め。複雑なシーン描写や複数キャラの相互作用ではミスが起きやすくなります。ただし、タグで細部までコントロールするスタイルが好きなら、SDXL は今でも有力な選択肢です。

編集モデル

編集モデルは生成モデルとは動作が異なり、ゼロから絵を描くわけではありません。アップロードした参照画像に対してスタイル変換やローカル編集を施します。代表的な使い方:

  • スタイル変換 —— 写真をアニメ調や水彩風にする
  • ローカル編集 —— 構図はそのままに、衣装や背景だけを差し替える
  • 複数画像参照 —— 複数の参照を同時にアップして、要素を組み合わせさせる

SD 1.5

SD 1.5 は最初に広く採用されたアーキテクチャです。ネイティブ解像度は 512×512 と低く、画像精度や解剖は新世代に及びません。コミュニティには今も SD 1.5 LoRA が残っていますが、新規モデルや LoRA はほとんど作られなくなりました。これから始めるなら、DiT か SDXL がおすすめです。


プロンプト

プロンプトは、モデルに 何を描かせるか を伝える手段 —— 被写体・動作・シーン・雰囲気のすべてを含みます。モデルを選んだあと、プロンプトが結果を最も大きく左右する変数 です。 PixAI のほとんどのモデルは最大 4096 文字までのプロンプトをサポートします。

自然言語プロンプト

自然言語プロンプトは、人に話しかけるように欲しい絵をまとまった文章で描写するスタイルです。Tsubaki.2 のような DiT モデルは特に得意としています。

  • 直感的でシンプル:タグのルールを覚える必要なし。誰かに説明するように書けば OK
  • 複雑なシーンに強い:キャラの関係性、雰囲気、ストーリー性がより自然に伝わる

自然言語プロンプトの例

キャラクターポーズシーン
コピーして PixAI へ
Mio from in a navy sailor uniform leans forward with both hands resting on a classroom desk, her face lit by warm afternoon sunlight streaming through the window behind her, wearing a gentle smile as she looks directly ahead.

タグベースのプロンプト

タグベースのプロンプトは、コンマ区切りのキーワードを並べる書き方で、各タグが画像の要素や細部 1 つに対応します。SDXL も DiT もこの方式に対応しています。

  • 簡潔で直接的:キーワードで主要素を指定し、残りは AI が補完
  • コントロール度が高い:細部やスタイルを 1 つずつ正確に指定できる

タグベースのプロンプトの例

キャラクターポーズシーン
コピーして PixAI へ
pixai_mio, navy sailor uniform, upper body, front view, leaning on desk, hands on table, gentle smile, direct gaze, sunlight on face, classroom window, warm lighting
Mio
Mio:

プロンプトをどう書いたらいいかわからない?PixAI の プロンプトヘルパー が整えてくれます!


LoRA

LoRA(Low-Rank Adaptation)は軽量なモデルファインチューニング手法です。ベースモデルを丸ごと差し替えずに、ちょっとした追加知識を加えることで、特定のキャラクター・スタイル・コンセプトを描けるようにします。LoRA はファイルサイズが小さく、効果はピンポイントです。

よくある LoRA の種類

種類用途
キャラクター LoRA特定のキャラを描くオリジナルキャラ
スタイル LoRA特定の画風を真似る厚塗り、水彩
衣装 LoRA特定の衣装デザインJK 制服、ウェディングドレス、鎧
ポーズ LoRA特定のポーズや構図戦闘ポーズ、寝そべり
コンセプト LoRA特定の概念や演出発光エフェクト、特殊背景
スピード LoRAサンプリングステップ数を削減LCM、DMD2、PCM、Hyper-SD
Mio
Mio:

Mio にも専用 LoRA があるんですよ!ぜひ試してみて

PixAI で LoRA を使う

生成パネルの LoRA セクションで、好きな LoRA を検索して追加できます。デフォルトでは同時に 3 つ の LoRA を重ねがけ可能。メンバーはより多く使えます —— 詳しくは メンバーシッププラン をご覧ください。

各 LoRA には Weight スライダーがあります —— 値を上げるほど、その LoRA の特徴が結果に強く反映されます。PixAI では最大 2 まで設定できますが、1 を超える値は通常おすすめしません。LoRA の作者から特に指示がなければ、デフォルト値で問題ありません。

PixAI の モデルマーケット には大量の LoRA が並んでいるので、ぜひ覗いてみてください。

このページは役に立ちましたか?

🎁 採用された有効なご提案には5,000クレジットを進呈します!

目次