[AI] 대형 언어 모델 파인튜닝 기법 정리 (SFT, PEFT, RLHF, DPO, RL)

usingsystem 2025. 3. 26. 13:45

728x90

대형 언어 모델(LLM)을 활용한 파인튜닝은 이제 누구나 해볼 수 있을 만큼 쉬워졌지만, SFT, PEFT, RLHF, DPO, PPO, RL 등 용어가 너무 많고 헷갈리는 경우가 많습니다. 이번 글에서는 LLM 파인튜닝 전략을 개념 중심으로 정리해보고,
언제 어떤 방법을 선택해야 하는지 흐름별로 알아보겠습니다.

전체 개념 흐름

1. SFT (Supervised Fine-Tuning)

지도학습 기반 파인튜닝으로, instruction과 output 쌍으로 된 데이터를 이용해 모델이 기본적인 응답을 할 수 있도록 훈련하는 단계입니다.

예를 들어:

{
  "instruction": "육아휴직은 얼마나 쓸 수 있나요?",
  "output": "최대 1년까지 가능합니다. 회사 내규를 참고하세요."
}

이런 형식의 데이터를 수천 개 모아 학습하면, 모델은 다양한 질문에 대응할 수 있게 됩니다.

새로운 도메인(법률, 의료, 기업 내부 등) 적용
모델이 기본적인 질의응답을 못할 때
모델이 말은 하게 해야 할 때

2. PEFT (Parameter-Efficient Fine-Tuning)

PEFT는 "모델의 전체 파라미터가 아닌 일부만 파인튜닝"하는 기법입니다. 대표적인 예가 LoRA, 그리고 메모리를 더 아끼는 QLoRA입니다. SFT는 많은 GPU 자원을 요하기 때문에 PEFT를 사용하면 효과적인 파인튜닝을 할 수 있습니다.

전체 모델을 학습하지 않고, 특정 Layer (ex. Attention의 q_proj, v_proj)만 훈련함
연산량/메모리 사용량을 획기적으로 줄일 수 있음
학습된 파라미터도 작아서 배포가 쉬움 (수 MB 수준)

사용되는 대표적인 경우

자원이 부족할 때 (8GB GPU도 OK)
여러 버전의 모델을 실험하고 비교해보고 싶을 때
빠르게 파인튜닝하고 싶을 때

SFT + PEFT 조합은 널리 쓰이는 방식입니다.

3. RLHF (Reinforcement Learning from Human Feedback)

SFT만으로는 만들기 어려운 "사람이 진짜 좋아할 만한" 응답을 생성하도록 하기 위해 등장한 것이 RLHF입니다.

RLHF = 사람 피드백 + 강화학습 (RL)

흐름:

SFT로 기본적인 응답 학습
RM(보상 모델, 생략 가능)
RL → 강화학습으로 응답을 조정

주로 사용하는 알고리즘: PPO (Proximal Policy Optimization)

사용되는 대표적인 경우

ChatGPT처럼 공손하고 유익하며 일관성 있는 답변이 필요할 때
사람이 더 좋아하는 응답을 유도하고 싶을 때
성능의 정제된 마무리 단계

4. RL (Reinforcement Learning)

강화학습은 RLHF의 핵심 단계입니다.

모델이 출력한 문장에 대해 보상을 받고, 보상이 높은 방향으로 모델을 업데이트하는 학습 방식입니다.

예를 들어

Prompt: "자기소개 해줘"
Model Response A: "야 너나 잘해" → 낮은 보상
Model Response B: "안녕하세요, 저는 AI 어시스턴트입니다." → 높은 보상

→ 모델은 이후 B처럼 응답하도록 학습됩니다.

사용 알고리즘: PPO

요약하자면:

RL = 보상 기반으로 모델 행동을 조정하는 학습 방식
RLHF = 사람 선호를 보상으로 사용한 RL

5. DPO (Direct Preference Optimization)

DPO는 최근 가장 인기 있는 RL 대체 기법 이라고 합니다.

강화학습(PPO) 없이도, "이 응답이 더 좋아"라는 선호 데이터만 있으면 충분합니다.

좋은 응답의 확률을 높이고, 나쁜 응답의 확률을 낮추는 방식으로 학습
구현이 간단하고 빠름
RL 없이도 RLHF와 유사한 성능
보상모델이 없어도 됨 (RM 생략 가능!)

사용되는 대표적인 경우

사람이 선택한 응답 쌍이 있는 경우
강화학습 없이 빠르게 RLHF 효과를 얻고 싶을 때

상황추천 방법

새 도메인 적용이 필요함	SFT (Full or PEFT)
GPU 자원이 부족함	PEFT (LoRA, QLoRA)
응답이 뭔가 어색하거나 딱딱함	RLHF (PPO 기반 RL)
PPO는 어렵고 간단한 선호 데이터만 있음	DPO
빠른 실험과 추론 최적화	PEFT + DPO 조합

정리

용어	뜻	목적
SFT	지도학습	기본 응답 학습
PEFT	일부만 학습	효율적 파인튜닝
LoRA	PEFT 기법 ( PEFT )	파라미터 소량만 업데이트
RL	강화학습 ( RLHF )	보상 기반 학습
RLHF	사람 피드백 기반 강화학습	자연스럽고 선호되는 응답 생성
PPO	RL 알고리즘 ( RLHF )	모델 정책 업데이트 방식
DPO	직접 선호 최적화	PPO 없이 선호 반영

728x90

저작자표시

'AI' 카테고리의 다른 글

[AI] LangChain - LangGraph ( State, Message ) (0)	2025.04.08
[AI] LangChain - Tool Calling 사용법 (0)	2025.04.04
[AI] LoRA 기반 PEFT 파인튜닝과 용어정리 (1)	2025.02.27
[AI] Huggingface모델 다운받아 Ollama에 올려서 RAG와 Memory사용하기 (0)	2024.06.27
[AI] Ollama 다운로드 및 모델 다운 방법 (1)	2024.06.27

현재글[AI] 대형 언어 모델 파인튜닝 기법 정리 (SFT, PEFT, RLHF, DPO, RL)

발자취

Today :
Yesterday :

정렬, 구하기, 관리, 나머지, 정리, 폴더, 문자열compare, 문자열 정렬, 순열, DFS,

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

발자취