AI

[AI] 대형 언어 모델 파인튜닝 기법 정리 (SFT, PEFT, RLHF, DPO, RL)

usingsystem 2025. 3. 26. 13:45
728x90

대형 언어 모델(LLM)을 활용한 파인튜닝은 이제 누구나 해볼 수 있을 만큼 쉬워졌지만, SFT, PEFT, RLHF, DPO, PPO, RL 등 용어가 너무 많고 헷갈리는 경우가 많습니다. 이번 글에서는 LLM 파인튜닝 전략을 개념 중심으로 정리해보고,
언제 어떤 방법을 선택해야 하는지 흐름별로 알아보겠습니다.

전체 개념 흐름

 데이터 있음
   |
   |-- 자원이 부족하거나 빠르게 실험하고 싶다
   |      -->  PEFT (LoRA, QLoRA)
   |
   |-- 자원이 충분하고 최대 성능이 목표다
   |      -->  Full SFT
   |
   v
 모델이 기본적인 응답을 하게 됨 (SFT 완료)
   |
   |-- 더 공손하고, 사람 같은 답변을 만들고 싶다
   |      -->  RLHF (강화학습 기반)
   |
   |-- 강화학습은 어렵고, 선호 데이터만 있다
   |      -->  DPO (강화학습 없이 선호 반영)
   v
 최종 모델 완성 → 배포, 추론, 서비스화

1. SFT (Supervised Fine-Tuning)

지도학습 기반 파인튜닝으로, instruction과 output 쌍으로 된 데이터를 이용해 모델이 기본적인 응답을 할 수 있도록 훈련하는 단계입니다.

 

예를 들어:

{
  "instruction": "육아휴직은 얼마나 쓸 수 있나요?",
  "output": "최대 1년까지 가능합니다. 회사 내규를 참고하세요."
}

이런 형식의 데이터를 수천 개 모아 학습하면, 모델은 다양한 질문에 대응할 수 있게 됩니다.

  • 새로운 도메인(법률, 의료, 기업 내부 등) 적용
  • 모델이 기본적인 질의응답을 못할 때
  • 모델이 말은 하게 해야 할 때

2. PEFT (Parameter-Efficient Fine-Tuning)

PEFT는 "모델의 전체 파라미터가 아닌 일부만 파인튜닝"하는 기법입니다. 대표적인 예가 LoRA, 그리고 메모리를 더 아끼는 QLoRA입니다. SFT는 많은 GPU 자원을 요하기 때문에 PEFT를 사용하면 효과적인 파인튜닝을 할 수 있습니다. 

  • 전체 모델을 학습하지 않고, 특정 Layer (ex. Attention의 q_proj, v_proj)만 훈련함
  • 연산량/메모리 사용량을 획기적으로 줄일 수 있음
  • 학습된 파라미터도 작아서 배포가 쉬움 (수 MB 수준)

사용되는 대표적인 경우

  • 자원이 부족할 때 (8GB GPU도 OK)
  • 여러 버전의 모델을 실험하고 비교해보고 싶을 때
  • 빠르게 파인튜닝하고 싶을 때

SFT + PEFT 조합은 널리 쓰이는 방식입니다.

3. RLHF (Reinforcement Learning from Human Feedback)

SFT만으로는 만들기 어려운 "사람이 진짜 좋아할 만한" 응답을 생성하도록 하기 위해 등장한 것이 RLHF입니다.

RLHF = 사람 피드백 + 강화학습 (RL)

 

흐름:

  1. SFT로 기본적인 응답 학습
  2. RM(보상 모델, 생략 가능)
  3. RL → 강화학습으로 응답을 조정

주로 사용하는 알고리즘: PPO (Proximal Policy Optimization)

 

사용되는 대표적인 경우

  • ChatGPT처럼 공손하고 유익하며 일관성 있는 답변이 필요할 때
  • 사람이 더 좋아하는 응답을 유도하고 싶을 때
  • 성능의 정제된 마무리 단계

4. RL (Reinforcement Learning)

강화학습은 RLHF의 핵심 단계입니다.

 

모델이 출력한 문장에 대해 보상을 받고, 보상이 높은 방향으로 모델을 업데이트하는 학습 방식입니다.

 

예를 들어

Prompt: "자기소개 해줘"
Model Response A: "야 너나 잘해" → 낮은 보상
Model Response B: "안녕하세요, 저는 AI 어시스턴트입니다." → 높은 보상

→ 모델은 이후 B처럼 응답하도록 학습됩니다.

사용 알고리즘: PPO

요약하자면:

  • RL = 보상 기반으로 모델 행동을 조정하는 학습 방식
  • RLHF = 사람 선호를 보상으로 사용한 RL

5. DPO (Direct Preference Optimization)

DPO는 최근 가장 인기 있는 RL 대체 기법 이라고 합니다.

 

강화학습(PPO) 없이도, "이 응답이 더 좋아"라는 선호 데이터만 있으면 충분합니다.

  • 좋은 응답의 확률을 높이고, 나쁜 응답의 확률을 낮추는 방식으로 학습
  • 구현이 간단하고 빠름
  • RL 없이도 RLHF와 유사한 성능
  • 보상모델이 없어도 됨 (RM 생략 가능!)

사용되는 대표적인 경우

  • 사람이 선택한 응답 쌍이 있는 경우
  • 강화학습 없이 빠르게 RLHF 효과를 얻고 싶을 때

상황추천 방법

새 도메인 적용이 필요함  SFT (Full or PEFT)
GPU 자원이 부족함  PEFT (LoRA, QLoRA)
응답이 뭔가 어색하거나 딱딱함  RLHF (PPO 기반 RL)
PPO는 어렵고 간단한 선호 데이터만 있음  DPO
빠른 실험과 추론 최적화  PEFT + DPO 조합

정리

용어 목적
SFT 지도학습 기본 응답 학습
PEFT 일부만 학습 효율적 파인튜닝
LoRA PEFT 기법 ( PEFT ) 파라미터 소량만 업데이트
RL 강화학습 ( RLHF ) 보상 기반 학습
RLHF 사람 피드백 기반 강화학습 자연스럽고 선호되는 응답 생성
PPO RL 알고리즘 ( RLHF ) 모델 정책 업데이트 방식
DPO 직접 선호 최적화 PPO 없이 선호 반영
 

 

728x90