강의/Information Retrieval(FastCampus 정리)

현대 검색 시스템의 진화(IR부터 LLM까지)

딥롱롱 2024. 12. 9. 14:20

검색 시스템은 우리 일상에서 없어서는 안 될 중요한 도구가 되었습니다. 하지만 혹시 수많은 문서 중에서 어떻게 우리가 원하는 정보를 찾아내는지 궁금해하신 적이 있으신가요? 오늘은 검색 시스템의 핵심 기술부터 최신 트렌드까지 함께 알아보도록 하겠습니다.

1. 검색의 기본 과제

우리가 인터넷에서 정보를 찾을 때 마주치는 첫 번째 화면은 검색창입니다. 이 작은 입력창 뒤에서는 어떤 일이 벌어질까요?

1.1 핵심 도전 과제

검색 시스템이 해결해야 할 가장 큰 과제는 다음과 같습니다:

  • 속도: 수백만 개의 문서 중에서 1초 이내에 결과를 찾아내야 합니다
  • 정확성: 사용자의 의도를 정확히 파악하고 관련된 정보를 제공해야 합니다
  • 확장성: 계속해서 늘어나는 데이터를 효율적으로 처리할 수 있어야 합니다

마치 도서관에서 수만 권의 책 중에서 원하는 정보가 있는 책을 즉시 찾아내야 하는 것과 같습니다.

2. 전통적인 검색 기술

2.1 역색인(Inverted Index)

역색인은 검색 시스템의 핵심 데이터 구조입니다. 쉽게 설명하자면, 일반적인 책의 목차가 "챕터 → 내용"을 보여준다면, 역색인은 "단어 → 이 단어가 등장하는 모든 문서"를 보여줍니다.

예를 들어 보겠습니다:

문서1: "맛있는 사과와 배"
문서2: "신선한 사과 주스"
문서3: "배는 맛있다"

역색인:
맛있는 → 문서1, 문서3
사과 → 문서1, 문서2
배 → 문서1, 문서3
신선한 → 문서2
주스 → 문서2

2.2 랭킹 시스템

검색 결과의 품질을 결정하는 것은 랭킹 시스템입니다. 다음과 같은 요소들을 고려합니다:

  • 문서와 검색어의 연관성: TF-IDF나 BM25 알고리즘을 사용하여 계산
  • 문서 자체의 품질: PageRank 같은 알고리즘으로 평가
  • 사용자 피드백: 클릭률, 체류시간 등의 데이터 활용

3. 현대적 접근: 벡터 검색과 신경망

최근 검색 기술은 인공지능의 발전과 함께 큰 변화를 겪고 있습니다.

3.1 벡터 검색

텍스트를 벡터로 변환하는 임베딩(Embedding) 기술을 통해, 단순한 키워드 매칭을 넘어 의미적 유사성을 찾아낼 수 있게 되었습니다. 예를 들어:

  • "강아지"와 "puppy"는 다른 단어지만 의미적으로 유사
  • "사과"가 과일인지 회사인지 문맥에 따라 파악 가능

3.2 ANN(Approximate Nearest Neighbor)

벡터 검색의 효율성을 높이기 위해 사용되는 주요 기술들:

  • LSH(Locality Sensitive Hashing): 유사한 벡터들을 같은 버킷에 모아두는 기법
  • HNSW(Hierarchical Navigable Small World): 계층적 그래프 구조를 통한 빠른 검색

4. LLM과 검색의 만남: RAG

2022년 말 ChatGPT의 등장으로 검색 시스템은 새로운 전기를 맞이했습니다.

4.1 RAG(Retrieval-Augm

ented Generation)

RAG는 전통적인 검색(IR)과 LLM의 장점을 결합한 새로운 패러다임입니다:

  1. 검색 엔진의 역할:
    • 최신 정보 제공
    • 신뢰할 수 있는 문서 검색
  2. LLM의 역할:
    • 자연어 이해 및 생성
    • 문맥을 고려한 답변 생성

4.2 한계와 발전 방향

LLM 기반 시스템의 주요 과제들:

  • 환각 현상: 존재하지 않는 정보를 생성하는 문제
  • 지식 단절: 학습 시점 이후의 정보를 알지 못하는 한계

이러한 한계를 극복하기 위해 RAG 시스템이 등장했고, 이는 실시간으로 업데이트되는 검색 시스템과 LLM의 추론 능력을 결합한 형태입니다.

5. 결론

검색 시스템은 단순한 키워드 매칭에서 시작하여 이제는 자연어로 대화하듯 정보를 찾을 수 있는 수준까지 발전했습니다. 앞으로도 AI 기술의 발전과 함께 더욱 진화할 것으로 기대됩니다.

LLM과 검색 시스템은 각자의 장단점을 가지고 있으며, 이들을 적절히 조화시키는 것이 미래 검색 시스템의 핵심이 될 것입니다.


Reference

[1] Upstage AI Lab 패스트캠퍼스

[2] https://arxiv.org/abs/2303.18223

[3] https://arxiv.org/abs/2303.18223 

[4]