[펌] RAG와 QLoRA에 대해

2025. 11. 18. 20:07

기본 LLM(예: GPT, Gemini, Grok)은 자기 가중치(머릿속 지식) 만으로 답을 만들어서
- 환각(Hallucination)이 발생하기 쉽고
- 학습 시점 이후의 최신 정보를 모른다는 한계가 있음.
마치 법전·판례 없이 기억만으로 상담하는 변호사와 같아서, 복잡한 질문에는 오답 가능성이 급증함.
이를 보완하기 위해 “AI도 변호사처럼 검색·자료참조를 하게 하자”는 발상에서 RAG가 등장.

구조:
1. 사용자의 질문을 받으면
2. 먼저 검색 모듈(벡터DB 등) 로 관련 문서·데이터를 찾고
3. 그 자료들을 질문과 함께 LLM에 넣어
4. LLM이 이를 기반으로 답변을 생성하게 함.
즉, LLM은 생성(Generation) 에만 집중하고, Retrieval(검색) 은 별도 모듈이 담당하는 구조.
효과:
- 최신 정보 반영 가능
- 출처·근거를 제시할 수 있음
- 환각이 눈에 띄게 감소
- 인터넷 전체가 아니라 회사 내부 DB만 검색하도록 설정해 B2B/엔터프라이즈 활용이 가능
- “모델 다시 학습” 없이도 Low risk, High return 으로 품질 개선 가능.

RAG는 “무슨 내용을 말할지(지식)” 는 개선하지만, 모델의 성격·말투·전문성(행동, 스타일) 은 바꾸지 못함.
→ 이를 바꾸려면 원래는 Full Fine-tuning(전체 뇌수술) 이 필요했는데, 이는 GPU·시간·비용이 너무 큼.
LoRA:
- 거대한 모델 전체를 다시 학습시키지 않고,
- 기존 모델은 그대로 얼려두고(Freeze)
- 그 위에 작은 어댑터(보조 장치) 만 학습.
- 이 어댑터 파라미터는 작아서 파일 크기·훈련비용이 매우 작고, 성능은 풀 파인튜닝에 근접.
- 단점: 여전히 VRAM(GPU 메모리) 사용량이 크다.
QLoRA:
- 여기서 한 단계 더 나아가, 원본 모델을 양자화(예: 16bit → 4bit) 해서 메모리 점유를 극단적으로 줄임.
- 결과적으로 일반 게이머용 GPU 에서도 LoRA 기반 파인튜닝이 가능해져
  → AI 파인튜닝의 비용·진입장벽을 크게 낮춤(민주화).

비유:
- QLoRA/LoRA: 변호사를 특정 분야 전문 + 특정 말투 로 훈련시키는 과정
  - 예: “특허법 전문 변호사 + 근엄한 대법관 말투”로 만드는 것(모델의 행동/전문성 변경).
- RAG: 이렇게 훈련된 변호사에게
  - 최신 법전·판례·오늘자 서류를 계속 쥐여주는 역할(실시간 지식 공급).
결과:
- 전문화된 태도·스타일 을 가진 AI가
- 최신·실제 데이터 를 근거로 답변을 생성.
- 둘 중 하나만으로는 불가능한, 고품질·실무형 AI 가 완성됨.

기업은 이제 단순히 “남이 만든 AI를 쓰는 것”을 넘어서,
- (QLoRA/LoRA로) 자사 용어·규칙·코딩 스타일에 맞춘 전용 AI 를 만들고
- (RAG로) 그 AI에게 사내 코드베이스, 문서, DB 전체 를 붙여 실무를 맡길 수 있음.
정리하면,
- RAG = 지식·데이터 측면 강화 (무엇을 말할지)
- LoRA/QLoRA = 행동·전문성·스타일 강화 (어떻게 말할지)
  → 이 조합이 현재 기업용·산업용 AI 전략의 핵심 축이 됨.

홀로 떠나는 여행