대형 언어 모델(LLM)을 활용한 파인튜닝은 이제 누구나 해볼 수 있을 만큼 쉬워졌지만, SFT, PEFT, RLHF, DPO, PPO, RL 등 용어가 너무 많고 헷갈리는 경우가 많습니다. 이번 글에서는 LLM 파인튜닝 전략을 개념 중심으로 정리해보고,
언제 어떤 방법을 선택해야 하는지 흐름별로 알아보겠습니다.
전체 개념 흐름
데이터 있음
|
|-- 자원이 부족하거나 빠르게 실험하고 싶다
| --> PEFT (LoRA, QLoRA)
|
|-- 자원이 충분하고 최대 성능이 목표다
| --> Full SFT
|
v
모델이 기본적인 응답을 하게 됨 (SFT 완료)
|
|-- 더 공손하고, 사람 같은 답변을 만들고 싶다
| --> RLHF (강화학습 기반)
|
|-- 강화학습은 어렵고, 선호 데이터만 있다
| --> DPO (강화학습 없이 선호 반영)
v
최종 모델 완성 → 배포, 추론, 서비스화
1. SFT (Supervised Fine-Tuning)
지도학습 기반 파인튜닝으로, instruction과 output 쌍으로 된 데이터를 이용해 모델이 기본적인 응답을 할 수 있도록 훈련하는 단계입니다.
예를 들어:
{
"instruction": "육아휴직은 얼마나 쓸 수 있나요?",
"output": "최대 1년까지 가능합니다. 회사 내규를 참고하세요."
}
이런 형식의 데이터를 수천 개 모아 학습하면, 모델은 다양한 질문에 대응할 수 있게 됩니다.
- 새로운 도메인(법률, 의료, 기업 내부 등) 적용
- 모델이 기본적인 질의응답을 못할 때
- 모델이 말은 하게 해야 할 때
2. PEFT (Parameter-Efficient Fine-Tuning)
PEFT는 "모델의 전체 파라미터가 아닌 일부만 파인튜닝"하는 기법입니다. 대표적인 예가 LoRA, 그리고 메모리를 더 아끼는 QLoRA입니다. SFT는 많은 GPU 자원을 요하기 때문에 PEFT를 사용하면 효과적인 파인튜닝을 할 수 있습니다.
- 전체 모델을 학습하지 않고, 특정 Layer (ex. Attention의 q_proj, v_proj)만 훈련함
- 연산량/메모리 사용량을 획기적으로 줄일 수 있음
- 학습된 파라미터도 작아서 배포가 쉬움 (수 MB 수준)
사용되는 대표적인 경우
- 자원이 부족할 때 (8GB GPU도 OK)
- 여러 버전의 모델을 실험하고 비교해보고 싶을 때
- 빠르게 파인튜닝하고 싶을 때
SFT + PEFT 조합은 널리 쓰이는 방식입니다.
3. RLHF (Reinforcement Learning from Human Feedback)
SFT만으로는 만들기 어려운 "사람이 진짜 좋아할 만한" 응답을 생성하도록 하기 위해 등장한 것이 RLHF입니다.
RLHF = 사람 피드백 + 강화학습 (RL)
흐름:
- SFT로 기본적인 응답 학습
- RM(보상 모델, 생략 가능)
- RL → 강화학습으로 응답을 조정
주로 사용하는 알고리즘: PPO (Proximal Policy Optimization)
사용되는 대표적인 경우
- ChatGPT처럼 공손하고 유익하며 일관성 있는 답변이 필요할 때
- 사람이 더 좋아하는 응답을 유도하고 싶을 때
- 성능의 정제된 마무리 단계
4. RL (Reinforcement Learning)
강화학습은 RLHF의 핵심 단계입니다.
모델이 출력한 문장에 대해 보상을 받고, 보상이 높은 방향으로 모델을 업데이트하는 학습 방식입니다.
예를 들어
Prompt: "자기소개 해줘"
Model Response A: "야 너나 잘해" → 낮은 보상
Model Response B: "안녕하세요, 저는 AI 어시스턴트입니다." → 높은 보상
→ 모델은 이후 B처럼 응답하도록 학습됩니다.
사용 알고리즘: PPO
요약하자면:
- RL = 보상 기반으로 모델 행동을 조정하는 학습 방식
- RLHF = 사람 선호를 보상으로 사용한 RL
5. DPO (Direct Preference Optimization)
DPO는 최근 가장 인기 있는 RL 대체 기법 이라고 합니다.
강화학습(PPO) 없이도, "이 응답이 더 좋아"라는 선호 데이터만 있으면 충분합니다.
- 좋은 응답의 확률을 높이고, 나쁜 응답의 확률을 낮추는 방식으로 학습
- 구현이 간단하고 빠름
- RL 없이도 RLHF와 유사한 성능
- 보상모델이 없어도 됨 (RM 생략 가능!)
사용되는 대표적인 경우
- 사람이 선택한 응답 쌍이 있는 경우
- 강화학습 없이 빠르게 RLHF 효과를 얻고 싶을 때
상황추천 방법
새 도메인 적용이 필요함 | SFT (Full or PEFT) |
GPU 자원이 부족함 | PEFT (LoRA, QLoRA) |
응답이 뭔가 어색하거나 딱딱함 | RLHF (PPO 기반 RL) |
PPO는 어렵고 간단한 선호 데이터만 있음 | DPO |
빠른 실험과 추론 최적화 | PEFT + DPO 조합 |
정리
용어 | 뜻 | 목적 |
SFT | 지도학습 | 기본 응답 학습 |
PEFT | 일부만 학습 | 효율적 파인튜닝 |
LoRA | PEFT 기법 ( PEFT ) | 파라미터 소량만 업데이트 |
RL | 강화학습 ( RLHF ) | 보상 기반 학습 |
RLHF | 사람 피드백 기반 강화학습 | 자연스럽고 선호되는 응답 생성 |
PPO | RL 알고리즘 ( RLHF ) | 모델 정책 업데이트 방식 |
DPO | 직접 선호 최적화 | PPO 없이 선호 반영 |
'AI' 카테고리의 다른 글
[AI] LangChain - LangGraph ( State, Message ) (0) | 2025.04.08 |
---|---|
[AI] LangChain - Tool Calling 사용법 (0) | 2025.04.04 |
[AI] LoRA 기반 PEFT 파인튜닝과 용어정리 (1) | 2025.02.27 |
[AI] Huggingface모델 다운받아 Ollama에 올려서 RAG와 Memory사용하기 (0) | 2024.06.27 |
[AI] Ollama 다운로드 및 모델 다운 방법 (1) | 2024.06.27 |