vLLM은 대형 언어 모델(LLM)의 추론 및 서빙을 효율적이고 고속으로 처리할 수 있는 오픈소스 라이브러리입니다. 특징고성능 추론 및 서빙OpenAI 호환 API 서버다양한 모델 지원하드웨어 및 분산 추론 지원vllm web 서버 생성먼저 로컬 모델이나 허깅페이스에서 사용할 모델을 다운로드하거나 정해야 한다.chat-template ./qwen3_nonthinking.jinja은 https://qwen.readthedocs.io/en/latest/deployment/vllm.html 에서 다운로드할 수 있다. qwen3의 nothink를 위한 chat template이다 think를 사용하고 싶으면 안 해도 된다.vllm serve 로컬 모델경로 or 허깅페이스 가능 --served-model-nam..