AI 이미지 생성의 작동 원리
AI 이미지 생성 입문 — 모델, 프롬프트, LoRA가 각각 무엇이고 어떻게 함께 작동해 한 장의 이미지를 만드는지 알아봅니다.
AI 이미지 생성은 실제로 어떻게 작동할까요? 이 페이지에서는 레스토랑 비유를 통해 세 가지 핵심 요소 — 모델, 프롬프트, LoRA — 를 풀어 봅니다. 각각의 역할을 이해하면 적절한 모델을 고르고, 효과적인 프롬프트를 쓰고, LoRA를 조합해 머릿속의 그림에 더 가까이 갈 수 있습니다. 바로 시작하고 싶다면 문법을 다루는 프롬프트 기초, 모델 선택을 돕는 모델 개요, 태그 사전으로 쓸 수 있는 프롬프트 치트시트로 가 보세요.
세 가지 기둥
모든 AI 이미지는 세 가지 요소가 함께 작동해 만들어집니다 — 모델, 프롬프트, 그리고 (선택적으로) LoRA.
레스토랑에 들어갔다고 상상해 보세요:
모델은 요리사입니다. 초밥을 잘하는 셰프, 라멘의 달인, 양식 셰프 — 어떤 셰프를 고르느냐에 따라 나오는 요리의 기본 노선이 결정됩니다. AI 모델도 마찬가지입니다. 각 모델은 서로 다른 화풍과 주제로 학습되어 있으며, 정교한 일본풍 애니메이션이 강한 모델, 사실적인 사진풍이 강한 모델, 인물이 강한 모델, 풍경이 강한 모델 등이 있습니다. 셰프를 잘 고르면 이후 작업이 훨씬 수월해집니다. PixAI의 모델들은 일본풍 애니메이션에 맞춰 튜닝되어 있어, 폭넓은 스타일·주제·장면에 대해 강력한 이해력과 표현력을 발휘합니다.
프롬프트는 주문입니다. 레스토랑에 들어갔으면 셰프에게 무엇을 원하는지 알려야 하죠 — 돈코쓰일까 미소일까? 반숙 계란? 면은 단단하게? 부드럽게? 구체적으로 전달할수록 나오는 요리가 이상에 가까워집니다. 프롬프트도 똑같습니다. 주제·동작·장면·분위기를 명확히 할수록 AI가 머릿속의 그림을 정확히 그려 줍니다.
LoRA는 맛 샘플입니다. 같은 라멘이라도 하카타 돈코쓰와 삿포로 미소는 완전히 다른 맛입니다. "그 맛이 좋아요"라고 설명만 해서는 셰프에게 잘 전달되지 않을 수 있죠. 하지만 실물 한 그릇을 건네면 즉시 이해받을 수 있습니다. LoRA는 그 "실물" — 특정 스타일이 어떻게 보이는지를 모델에게 가르쳐 주는 아주 작은 추가 학습 데이터입니다. 이를 통해 결과가 목표에 가까워집니다.
모델 아키텍처
모델은 그림체의 기준선과 품질의 상한을 결정합니다. 같은 프롬프트라도 다른 모델에 넘기면 전혀 다른 그림이 나옵니다.
| 아키텍처 | 강점 | 프롬프트 작성법 | 추천 모델 |
|---|---|---|---|
| DiT | 최고 화질, 강력한 자연어 이해 | 자연어와 태그 모두 지원 | Tsubaki.2 |
| SDXL | 풍부한 LoRA 생태계, 정밀한 태그 컨트롤 | 태그 기반 | Haruka v2 |
| 편집 모델 | 참조 이미지로 스타일 변환이나 부분 편집 | 자연어 + 참조 이미지 | Reference Pro |
| SD 1.5 | 구세대 아키텍처. 점차 사용이 줄어드는 중 | 태그 기반 | — |
DiT
DiT(Diffusion Transformer)는 현재 가장 화질이 뛰어난 아키텍처입니다. 가장 큰 장점은 자연어 이해 능력의 우수성 — 태그에만 의존하지 않고 완성된 문장으로 장면을 묘사할 수 있습니다.
- 라이팅과 분위기 — "역광", "노을의 따뜻한 빛" 같은 복잡한 라이팅 지시를 정확히 포착합니다
- 해부학 — 손가락과 포즈 정확도가 크게 향상. 다중 캐릭터 장면에서도 잘 무너지지 않습니다
- 구도 — 전경/배경, 위/아래 같은 공간 관계를 제대로 이해합니다

어떤 모델을 선택해야 할지 모르겠다고요? Mio의 추천은 Tsubaki.2! PixAI 최신 최강 DiT 플래그십이에요.
SDXL
SDXL은 이전 세대 주류 아키텍처로, 태그 기반 프롬프트에 대한 이해가 매우 정밀합니다. 강점:
- 강력한 태그 컨트롤 — 태그마다 효과가 예측 가능해서 세밀한 튜닝이 쉽습니다
- 풍부한 LoRA 생태계 — SDXL 전용 캐릭터·스타일·의상 LoRA가 커뮤니티에 대량으로 축적되어 있습니다
- 유연한 중첩 — 여러 LoRA를 조합하기 쉬워, 조합 실험에 적합합니다
DiT에 비하면 자연어 이해는 약한 편. 복잡한 장면 묘사나 다중 캐릭터 상호작용에서 실수가 생기기 쉽습니다. 다만 태그로 세부까지 컨트롤하는 스타일이 좋다면 SDXL은 지금도 강력한 선택지입니다.
편집 모델
편집 모델은 생성 모델과 작동 방식이 다릅니다. 처음부터 그림을 그리지 않습니다. 업로드한 참조 이미지에 스타일 변환이나 부분 편집을 적용합니다. 대표적인 사용 사례:
- 스타일 변환 — 사진을 애니메이션 풍이나 수채화 풍으로 변환
- 부분 편집 — 구도는 유지한 채 의상이나 배경만 교체
- 다중 이미지 참조 — 여러 참조를 동시에 업로드해 요소를 조합
SD 1.5
SD 1.5는 처음으로 널리 채택된 아키텍처입니다. 네이티브 해상도는 512×512로 낮고, 이미지 정밀도와 해부학 모두 신세대에 미치지 못합니다. 커뮤니티에는 여전히 SD 1.5 LoRA가 남아 있지만, 신규 모델과 LoRA는 거의 만들어지지 않습니다. 새로 시작하신다면 DiT나 SDXL을 추천합니다.
프롬프트
프롬프트는 모델에게 무엇을 그리게 할지 전달하는 수단 — 주제·동작·장면·분위기를 모두 포함합니다. 모델을 선택한 뒤에는 프롬프트가 결과를 가장 크게 좌우하는 변수입니다. PixAI의 대부분 모델은 최대 4096자까지 프롬프트를 지원합니다.
자연어 프롬프트
자연어 프롬프트는 사람에게 말하듯 원하는 그림을 완성된 문장으로 묘사하는 스타일입니다. Tsubaki.2 같은 DiT 모델이 특히 잘 다룹니다.
- 직관적이고 단순: 태그 규칙을 외울 필요 없이, 누군가에게 설명하듯 쓰면 됩니다
- 복잡한 장면에 강함: 캐릭터 관계성, 분위기, 스토리성이 더 자연스럽게 전달됩니다

태그 기반 프롬프트
태그 기반 프롬프트는 콤마로 구분된 키워드를 나열하는 작성법으로, 각 태그가 이미지의 요소나 디테일 1개에 대응합니다. SDXL과 DiT 모두 이 방식을 지원합니다.
- 간결하고 직접적: 키워드로 주요소를 지정하고, 나머지는 AI가 채웁니다
- 컨트롤 정밀도 높음: 디테일과 스타일을 하나하나 정확히 지정할 수 있습니다


프롬프트를 어떻게 써야 할지 모르겠다고요? PixAI의 프롬프트 헬퍼가 다듬어 줄 거예요!
LoRA
LoRA(Low-Rank Adaptation)는 경량 모델 파인튜닝 기법입니다. 베이스 모델을 통째로 교체하지 않고 약간의 추가 지식을 더해 주는 방식으로, 특정 캐릭터·스타일·컨셉을 그릴 수 있게 만듭니다. LoRA는 파일 크기가 작고 효과가 핀포인트로 적용됩니다.
자주 보이는 LoRA 종류
| 종류 | 용도 | 예시 |
|---|---|---|
| 캐릭터 LoRA | 특정 캐릭터를 그림 | 오리지널 캐릭터 |
| 스타일 LoRA | 특정 화풍을 흉내 | 임파스토, 수채 |
| 의상 LoRA | 특정 의상 디자인 | JK 교복, 웨딩드레스, 갑옷 |
| 포즈 LoRA | 특정 포즈나 구도 | 전투 자세, 누워 있기 |
| 컨셉 LoRA | 특정 개념이나 연출 | 발광 이펙트, 특수 배경 |
| 스피드 LoRA | 샘플링 스텝 수 감축 | LCM, DMD2, PCM, Hyper-SD |

Mio도 전용 LoRA가 있어요! 한번 써보세요.
PixAI에서 LoRA 사용하기
생성 패널의 LoRA 섹션에서 원하는 LoRA를 검색해 추가할 수 있습니다. 기본적으로는 3개의 LoRA를 함께 적용해 쓸 수 있습니다. 멤버는 더 많이 사용할 수 있습니다 — 자세한 내용은 멤버십 플랜을 참고하세요.
각 LoRA에는 Weight 슬라이더가 있습니다 — 값을 높일수록 그 LoRA의 특징이 결과에 강하게 반영됩니다. PixAI는 최대 2까지 설정할 수 있지만, 1을 넘는 값은 보통 권장되지 않습니다. LoRA 작성자가 따로 지시하지 않았다면 기본값으로 충분합니다.
PixAI의 모델 마켓에는 LoRA가 잔뜩 있으니 한 번 둘러보세요.
이 페이지가 도움이 되었나요?
🎁 채택된 유효한 제안은 5,000 크레딧 보상을 받습니다!