Twowinn
[AI Research] 04 - LoRA: Low-Rank Adaptation Of Large Language Model 본문
[AI Research] 04 - LoRA: Low-Rank Adaptation Of Large Language Model
내일모레는 코딩왕 2026. 3. 19. 16:34작성 목적
알파 프로젝트에서 국민대학교 소프트웨어융합대학 신입생을 위한 RAG 기반 챗봇의 답변 성능을 고도화하기 위해, LLM의 파인튜닝(Fine-tuning) 전략을 고민하게 되었다. 하지만 수십억 개의 파라미터를 가진 거대 모델을 우리만의 데이터로 전체 학습시키는 것은 하드웨어 리소스와 비용 면에서 엄청난 진입장벽이었다. 이에 대한 해답으로, 모델 가중치는 그대로 둔 채 아주 적은 파라미터만으로 효율적인 학습을 가능케 하는 LoRA의 핵심 원리와 Low-Rank의 철학을 우리 프로젝트에 녹여내기 위해 이 논문을 정리해 보았다.

Abstract
원문 핵심 문장
“ We propose Low-Rank Adaptation, or LoRA, which freezes the pre-trained model weights and injects trainable rank decomposition matrices into each layer of the Transformer architecture, greatly reducing the number of trainable parameters for downstream tasks. ”
1. Introduction
[거대 모델의 역설 : 파인튜닝의 한계와 새로운 돌파구]
현대 NLP의 가장 중요한 패러다임은 대규모 데이터로 사전학습(Pre-training)된 모델을 특정 도메인에 맞게 적응(Adaptation)시키는 것이다. 하지만 모델의 크기가 커질수록, 기존의 방식은 감당할 수 없는 무게가 되어버렸다.
파라미터의 홍수 : 175B의 무게
가장 보편적인 적응 방식인 '전체 파인튜닝(Full Fine-tuning)'은 모델의 모든 파라미터를 업데이트한다. 하지만 이는 치명적인 약점을 가지고 있다.
- 거대한 체크포인트: GPT-3(175B)를 예로 들면, 새로운 태스크 하나를 배울 때마다 1750억 개의 파라미터를 담은 독립적인 모델 인스턴스를 저장하고 배포해야 한다.
- 배포의 불가능성: 수십 개의 태스크를 서비스하려면 수십 개의 175B 모델이 필요하며, 이는 실질적인 서비스 운영을 불가능하게 만든다.
기존 대안들의 딜레마 : 효율과 성능의 트레이드오프
효율적인 적응을 위해 제안된 기존 기술들도 완벽하지 않았다.
- 어댑터(Adapter)의 지연: 모델 사이에 작은 층을 끼워 넣는 방식은 하드웨어 병렬 처리를 방해하여 추론 지연(Inference Latency)을 유발한다. 특히 실시간 응답이 중요한 온라인 서비스 환경에서는 치명적이다.
- 프롬프트 튜닝의 한계: 입력 레이어를 최적화하는 방식은 학습이 어렵고, 모델이 사용할 수 있는 시퀀스 길이(Sequence Length)를 깎아먹는 문제를 낳는다.
LoRA의 가설 : '본질적인 차원'에 집중하라
DPR이 의미를 좌표로 읽어냈다면, LoRA는 학습의 '본질'을 꿰뚫어 본다.
- Intrinsic Rank 가설: 학습된 거대 모델들은 사실 아주 낮은 본질적 차원(Low intrinsic dimension)에 거주하고 있다. 즉, 모델이 새로운 태스크를 배울 때 일어나는 가중치의 변화(Delta_W) 역시 아주 낮은 '랭크(Rank)'만으로도 충분히 표현 가능하다는 것이다.
- 냉동과 주입: 기존의 거대한 가중치는 단단히 얼려두고(Freeze), 대신 아주 작은 크기의 랭크 분해 행렬(Rank decomposition matrices)만 주입하여 이들만 학습시킨다.
LoRA가 가져온 수치적 경이로움 (GPT-3 175B 기준)
- 파라미터 10,000배 감소: 학습해야 할 파라미터 수를 획기적으로 줄였다.
- VRAM 3배 절감: 학습 시 필요한 GPU 메모리를 1.2TB에서 350GB 수준으로 낮췄다.
- 추론 지연 시간 Zero: 구조적으로 기존 가중치와 합칠 수 있어, 어댑터와 달리 추가적인 연산 시간이 전혀 들지 않는다.
2. Problem Statement
[수천억 개의 파라미터 : 효율성이라는 이름의 족쇄]
LoRA가 해결하고자 하는 문제는 명확하다. 바로 "어떻게 하면 거대 모델의 지능을 유지하면서, 아주 적은 비용으로 새로운 태스크에 적응시킬 것인가?"이다.
언어 모델링의 본질 : 조건부 확률의 극대화
우리가 다루는 대부분의 자연어 처리 태스크(요약, 독해, NL2SQL 등)는 결국 주어진 입력(x)에 대해 가장 적절한 출력(y)이 나올 조건부 확률을 최대화하는 문제로 귀결된다.
- 수식의 의미: 사전 학습된 모델 $P_{\Phi}(y|x)$가 있을 때, 특정 태스크 데이터셋 $\mathcal{Z}$에 맞춰 파라미터 $\Phi$를 최적화하는 과정이다.
Full Fine-Tuning의 저주 : | Δ Φ |= | Φ_0 |
기존의 전체 파인튜닝 방식은 모델의 초기 가중치 \Phi_0에 변화량 \Delta\Phi를 더해 업데이트한다. 하지만 여기서 치명적인 문제가 발생한다.
- 파라미터의 비대함: 업데이트되는 변화량 $\Delta\Phi$의 크기가 원래 모델의 크기인 $\Phi_0$와 정확히 같다.
- 실전의 한계: 만약 우리가 GPT-3(175B)를 사용한다면, 태스크 하나를 배울 때마다 또 다른 1750억 개의 파라미터를 저장하고 관리해야 한다. 이는 우리 국민대 알파 프로젝트처럼 자원이 한정된 환경에서는 '불가능'을 선언하는 것과 다름없다.
LoRA의 지향점 : 극강의 파라미터 효율성 ($|\Theta| \ll |\Phi_0|$)
LoRA는 이 무거운 변화량 $\Delta\Phi$를 직접 학습하는 대신, 훨씬 작은 규모의 파라미터 집합 $\Theta$로 인코딩하여 최적화한다.
- 0.01%의 기적: GPT-3 175B 모델을 기준으로 할 때, 학습이 필요한 파라미터 수($|\Theta|$)를 원래 모델 크기의 단 0.01% 수준까지 줄일 수 있다.
- 핵심 전략: 수천억 개의 파라미터를 다 건드리는 무식한 방식이 아니라, 핵심적인 변화만을 담은 '저차원(Low-Rank)의 정수'만을 뽑아내어 학습 효율을 극대화하는 것이다.
'[AI Research]' 카테고리의 다른 글
| [AI Research] 02 - Attention Is All You Need (0) | 2026.03.18 |
|---|---|
| [AI Research] 00 – 머신러닝 개요와 핵심 개념 정리 (0) | 2025.09.30 |