RAG 초보자 가이드 — LLM에 내 데이터를 연결하는 법

문서에서 정보를 검색해 AI에 전달하는 RAG

ChatGPT한테 우리 회사 내부 문서에 대해 물어보면? 당연히 모른다. 학습 데이터에 없으니까. 그렇다고 모델을 파인튜닝하자니 비용도 시간도 만만치 않다. 그래서 나온 게 RAG다.

RAG가 뭔가

RAG는 Retrieval-Augmented Generation의 약자다. 한국어로는 "검색 증강 생성"이라고 하는데, 이름이 거창할 뿐 개념은 단순하다.

사용자가 질문을 한다
관련 문서를 검색해서 찾는다
찾은 문서를 LLM 프롬프트에 같이 넣는다
LLM이 해당 문서를 참고해서 답변한다

오픈북 시험이라고 생각하면 된다. LLM이 알아서 답을 만들어내는 게 아니라, 참고 자료를 옆에 펼쳐놓고 답하는 방식이다. 그래서 할루시네이션(사실이 아닌 내용을 지어내는 현상)도 줄어든다. 참고 자료에 없는 내용은 "모르겠다"고 답하게 할 수 있으니까.

왜 파인튜닝 대신 RAG를 쓸까

파인튜닝과 RAG는 "LLM에 새로운 지식을 주입한다"는 목적은 같지만 접근 방식이 완전 다르다.

파인튜닝은 모델의 가중치 자체를 바꾼다. 학습 데이터를 준비하고, GPU를 돌려서 모델을 재학습시킨다. 비용이 크고, 데이터가 바뀌면 다시 학습해야 한다. 모델이 "알게" 되는 거라서 할루시네이션 통제가 어렵다.

RAG는 모델을 건드리지 않는다. 검색 시스템만 붙이면 된다. 데이터가 바뀌면 문서만 업데이트하면 그만이다. 출처를 명시할 수 있어서 답변의 근거가 명확하다. "이 문서의 3페이지를 참고해서 답변했습니다"라고 할 수 있다는 건, 비즈니스 환경에서 큰 장점이다.

실제로는 둘 다 쓰는 경우도 있다. 하지만 대부분의 "내 데이터를 LLM에 연결하고 싶다" 유스케이스에서 RAG가 첫 선택이 되는 이유는 비용 대비 효과가 훨씬 좋기 때문이다. 파인튜닝은 GPU 비용만 수십만~수백만 원이 드는 반면, RAG는 임베딩 API와 벡터 DB 비용 정도로 시작할 수 있다.

핵심 구성 요소

RAG 파이프라인은 크게 세 부분으로 나뉜다.

1. 문서 전처리

원본 문서를 LLM이 소화할 수 있는 형태로 잘라야 한다. PDF, 워드, 웹페이지 등 다양한 포맷의 문서를 텍스트로 변환하고, 적절한 크기의 "청크(chunk)"로 분할한다.

청크 크기는 보통 500~1000 토큰 정도로 잡는다. 너무 크면 검색 정확도가 떨어지고, 너무 작으면 맥락이 끊긴다. 겹치는 구간(overlap)을 두기도 하는데, 문단 경계에서 정보가 잘리는 걸 방지하기 위해서다. 예를 들어 500토큰 청크에 100토큰 오버랩을 두면, 앞 청크의 마지막 100토큰이 다음 청크의 시작에도 포함된다.

원본 문서 → 텍스트 추출 → 청크 분할 → 임베딩 생성 → 벡터 DB 저장

2. 임베딩과 벡터 DB

여기가 RAG의 핵심이다. 텍스트를 숫자 벡터로 변환하는 걸 "임베딩"이라고 한다.

"고양이"와 "강아지"는 텍스트로 보면 전혀 다르지만, 임베딩 공간에서는 가까운 위치에 놓인다. 의미가 비슷하니까. "자동차"는 둘 다와 거리가 멀다. 이런 식으로 의미적 유사도를 수치로 계산할 수 있게 만드는 게 임베딩의 역할이다.

임베딩 모델은 OpenAI의 text-embedding-3-small이나 오픈소스인 bge-m3 같은 걸 쓴다. 모든 청크를 임베딩으로 변환해서 벡터 DB에 저장한다. 임베딩 모델 선택이 RAG 성능에 상당한 영향을 미치는데, 한국어 데이터를 다룬다면 다국어 지원이 좋은 모델을 고르는 게 중요하다.

벡터 DB는 이 벡터들을 효율적으로 검색하는 데 특화된 데이터베이스다. 주요 옵션들:

Pinecone — 관리형 서비스, 설정이 간편함. 인프라 관리를 하고 싶지 않을 때
Weaviate — 하이브리드 검색(키워드+벡터) 지원. 검색 정확도를 높이고 싶을 때
Chroma — 로컬 개발에 좋은 경량 옵션. 프로토타입용으로 최적
pgvector — PostgreSQL 확장, 기존 DB 인프라 활용 가능. 별도 인프라 추가가 부담스러울 때

3. 검색과 생성

사용자 질문이 들어오면:

질문도 같은 임베딩 모델로 벡터로 변환한다
벡터 DB에서 가장 유사한 청크 k개를 가져온다
가져온 청크들을 프롬프트에 "컨텍스트"로 넣는다
LLM이 컨텍스트를 참고해서 답변을 생성한다

[시스템 프롬프트]
아래 컨텍스트를 기반으로 질문에 답하세요.
컨텍스트에 없는 내용은 "모르겠습니다"라고 답하세요.

[컨텍스트]
{검색된 청크 1}
{검색된 청크 2}
{검색된 청크 3}

[질문]
{사용자 질문}

이게 RAG의 전체 흐름이다. 시스템 프롬프트에서 "컨텍스트에 없는 내용은 모르겠다고 해"라는 지시가 중요하다. 이걸 빠뜨리면 LLM이 자기가 아는 지식으로 답변을 보충하면서 할루시네이션이 발생할 수 있다.

실제로 만들면 신경 쓸 것들

개념은 간단한데 잘 동작하게 만드는 건 또 다른 문제다.

청크 전략이 답변 품질을 좌우한다. 같은 문서라도 어떻게 자르느냐에 따라 검색 결과가 크게 달라진다. 단순히 글자 수로 자르는 것보다 문단이나 섹션 단위로 자르는 게 낫고, 제목이나 메타데이터를 청크에 포함시키면 검색 정확도가 올라간다. "3장: 결제 시스템"이라는 제목이 청크에 포함되어 있으면, 결제 관련 질문에 해당 청크가 검색될 확률이 높아진다.

하이브리드 검색을 고려하자. 벡터 검색(의미 기반)만으로는 정확한 키워드나 고유명사를 찾는 데 약하다. "API-2024-003"같은 문서 번호를 벡터 검색으로 찾기는 어렵다. BM25 같은 키워드 검색을 병행하면 보완된다. 실무에서는 둘을 함께 쓰고 결과를 합치는 방식(Reciprocal Rank Fusion 등)이 흔하다.

리랭킹(re-ranking)으로 정밀도를 높인다. 1차로 넉넉하게 후보를 뽑고(예: 20개), 리랭킹 모델로 다시 정렬해서 상위 몇 개만 컨텍스트에 넣는 방식. Cohere Rerank나 bge-reranker 같은 모델이 여기에 쓰인다. 이 한 단계를 추가하는 것만으로 답변 품질이 눈에 띄게 올라가는 경우가 많다.

평가가 어렵다. "답변이 잘 나오는가"를 체계적으로 측정하기 까다롭다. RAGAS 같은 프레임워크가 있긴 한데, 결국 도메인 전문가가 직접 확인하는 과정이 필요하다. 자동 평가 지표만 믿으면 안 되고, 실제 사용자 피드백을 수집하는 게 가장 확실하다.

시작하려면

가장 빠르게 RAG를 경험해보려면 LangChain + Chroma 조합이 좋다. Python 기준으로 파일 몇 개면 동작하는 프로토타입을 만들 수 있다.

# 개념적인 흐름 (의사코드)
documents = load_documents("./docs")
chunks = split_into_chunks(documents, chunk_size=500)
embeddings = embed(chunks, model="text-embedding-3-small")
vector_store = store_in_chroma(embeddings)

# 질문 시
query = "분기별 매출 추이는?"
relevant_chunks = vector_store.search(query, k=3)
answer = llm.generate(context=relevant_chunks, question=query)

프로덕션 수준으로 가려면 청크 전략 실험, 임베딩 모델 비교, 리랭킹 도입, 평가 파이프라인 구축까지 해야 한다. 하지만 일단 돌아가는 프로토타입을 만들어보는 게 가장 중요하다. 그래야 어디서 병목이 생기는지, 어떤 부분을 개선해야 하는지 감이 잡힌다.

흔한 실수들

RAG를 처음 만드는 사람들이 자주 빠지는 함정이 몇 가지 있다.

청크 크기를 너무 작게 잡는 실수. 작게 잘라야 정확하다고 생각하기 쉬운데, 100토큰짜리 청크는 맥락이 부족해서 LLM이 의미를 파악하기 어렵다. "매출이 30% 증가했다"라는 문장이 있어도, 어떤 기간인지, 어떤 사업부인지 맥락이 없으면 쓸모가 없다. 처음에는 500~1000 토큰으로 시작하고, 결과를 보면서 조절하는 게 낫다.

임베딩 모델을 대충 고르는 실수. OpenAI의 기본 임베딩 모델이 편리하긴 하지만, 한국어 데이터에서는 다국어 전문 모델이 더 나은 결과를 줄 수 있다. bge-m3나 multilingual-e5-large 같은 오픈소스 모델도 한국어 성능이 상당히 좋다. 모델 하나 바꾸는 것만으로 검색 정확도가 크게 올라가기도 한다.

프롬프트를 소홀히 하는 실수. 검색된 청크를 그냥 프롬프트에 때려넣으면 답변 품질이 들쭉날쭉하다. "컨텍스트에 없는 내용은 모르겠다고 해", "출처를 명시해", "한국어로 답변해" 같은 지시를 시스템 프롬프트에 넣어주면 일관성이 확 올라간다.

RAG는 LLM 애플리케이션의 기본 패턴이 됐다. 사내 검색 시스템, 고객 지원 챗봇, 문서 기반 QA 등 어디든 쓰인다. 기본 개념을 확실히 잡아두면 응용은 자연스럽게 따라온다.