하기 링크의 글을 읽고 요약함

https://arca.live/b/alpaca/153704606

 

 

1. 왜 RAG가 필요한가

  • 기본 LLM(예: GPT, Gemini, Grok)은 자기 가중치(머릿속 지식) 만으로 답을 만들어서
    • 환각(Hallucination)이 발생하기 쉽고
    • 학습 시점 이후의 최신 정보를 모른다는 한계가 있음.
  • 마치 법전·판례 없이 기억만으로 상담하는 변호사와 같아서, 복잡한 질문에는 오답 가능성이 급증함.
  • 이를 보완하기 위해 “AI도 변호사처럼 검색·자료참조를 하게 하자”는 발상에서 RAG가 등장.

2. RAG(Retrieval-Augmented Generation)의 역할

  • 구조:
    1. 사용자의 질문을 받으면
    2. 먼저 검색 모듈(벡터DB 등) 로 관련 문서·데이터를 찾고
    3. 그 자료들을 질문과 함께 LLM에 넣어
    4. LLM이 이를 기반으로 답변을 생성하게 함.
  • 즉, LLM은 생성(Generation) 에만 집중하고, Retrieval(검색) 은 별도 모듈이 담당하는 구조.
  • 효과:
    • 최신 정보 반영 가능
    • 출처·근거를 제시할 수 있음
    • 환각이 눈에 띄게 감소
    • 인터넷 전체가 아니라 회사 내부 DB만 검색하도록 설정해 B2B/엔터프라이즈 활용이 가능
    • “모델 다시 학습” 없이도 Low risk, High return 으로 품질 개선 가능.

3. LoRA / QLoRA의 등장 배경과 핵심 아이디어

  • RAG는 “무슨 내용을 말할지(지식)” 는 개선하지만, 모델의 성격·말투·전문성(행동, 스타일) 은 바꾸지 못함.
    → 이를 바꾸려면 원래는 Full Fine-tuning(전체 뇌수술) 이 필요했는데, 이는 GPU·시간·비용이 너무 큼.
  • LoRA:
    • 거대한 모델 전체를 다시 학습시키지 않고,
    •  기존 모델은 그대로 얼려두고(Freeze)
    •  그 위에 작은 어댑터(보조 장치) 만 학습.
    • 이 어댑터 파라미터는 작아서 파일 크기·훈련비용이 매우 작고, 성능은 풀 파인튜닝에 근접.
    • 단점: 여전히 VRAM(GPU 메모리) 사용량이 크다.
  • QLoRA:
    • 여기서 한 단계 더 나아가, 원본 모델을 양자화(예: 16bit → 4bit) 해서 메모리 점유를 극단적으로 줄임.
    • 결과적으로 일반 게이머용 GPU 에서도 LoRA 기반 파인튜닝이 가능해져
      → AI 파인튜닝의 비용·진입장벽을 크게 낮춤(민주화).

4. RAG(지식) + QLoRA(행동/전문성)의 조합

  • 비유:
    • QLoRA/LoRA: 변호사를 특정 분야 전문 + 특정 말투 로 훈련시키는 과정
      • 예: “특허법 전문 변호사 + 근엄한 대법관 말투”로 만드는 것(모델의 행동/전문성 변경).
    • RAG: 이렇게 훈련된 변호사에게
      • 최신 법전·판례·오늘자 서류를 계속 쥐여주는 역할(실시간 지식 공급).
  • 결과:
    • 전문화된 태도·스타일 을 가진 AI가
    • 최신·실제 데이터 를 근거로 답변을 생성.
    • 둘 중 하나만으로는 불가능한, 고품질·실무형 AI 가 완성됨.

5. 비즈니스 관점에서의 임팩트

  • 기업은 이제 단순히 “남이 만든 AI를 쓰는 것”을 넘어서,
    • (QLoRA/LoRA로) 자사 용어·규칙·코딩 스타일에 맞춘 전용 AI 를 만들고
    • (RAG로) 그 AI에게 사내 코드베이스, 문서, DB 전체 를 붙여 실무를 맡길 수 있음.
  • 정리하면,
    • RAG = 지식·데이터 측면 강화 (무엇을 말할지)
    • LoRA/QLoRA = 행동·전문성·스타일 강화 (어떻게 말할지)
      → 이 조합이 현재 기업용·산업용 AI 전략의 핵심 축이 됨.

 

 

반응형

+ Recent posts