대형 언어 모델(LLM)을 활용한 파인튜닝은 이제 누구나 해볼 수 있을 만큼 쉬워졌지만, SFT, PEFT, RLHF, DPO, PPO, RL 등 용어가 너무 많고 헷갈리는 경우가 많습니다. 이번 글에서는 LLM 파인튜닝 전략을 개념 중심으로 정리해보고,언제 어떤 방법을 선택해야 하는지 흐름별로 알아보겠습니다.전체 개념 흐름 데이터 있음 | |-- 자원이 부족하거나 빠르게 실험하고 싶다 | --> PEFT (LoRA, QLoRA) | |-- 자원이 충분하고 최대 성능이 목표다 | --> Full SFT | v 모델이 기본적인 응답을 하게 됨 (SFT 완료) | |-- 더 공손하고, 사람 같은 답변을 만들고 싶다 | --> RLHF (..