참고사항 논문이나 기술문서를 요약하여 정보를 전달드리는 목적으로 작성되었습니다.

들어가며

본 블로그는 Google의 Notebook LM 도구를 사용하여 Graph RAG관련 기술 논문을 요약한 내용입니다.

논문 원본과 다르게 설명을 위하여 부가적인 내용이 포함되어 있을수 있습니다. 상세한 내용은 논문 원본을 참고하시기 바랍니다.

🧭📊 Graph RAG: 방대한 데이터에서 답을 찾는 똑똑한 방법! 🔎✨

😩 방대한 데이터, 어떻게 분석해야 할까요? 🤯

IT 세계는 방대한 데이터로 가득 차 있습니다. 하지만 우리에게 필요한 답을 찾기 위해 이 모든 데이터를 일일이 분석하는 것은 매우 어렵습니다. 하지만 너무 걱정하지 마세요! Graph RAG가 똑똑하고 효율적인 해결책을 제시합니다! 🎉

✨ Graph RAG란 무엇일까요? 🤔

Graph RAG질문 중심 요약 (Query-Focused Summarization)검색 증강 생성 (Retrieval-Augmented Generation) 기술을 결합하여 대규모 텍스트 데이터에서 원하는 정보를 정확하게 찾아 요약해주는 혁신적인 기술입니다. 쉽게 말해, Graph RAG는 마치 전문가처럼 우리 대신 방대한 데이터를 분석하고 필요한 정보만 쏙쏙 뽑아서 알려줍니다.

🔍 Graph RAG는 어떻게 작동하나요?

Graph RAG는 다음과 같은 단계를 거쳐 작동합니다.

  1. 텍스트 분석: 먼저 분석할 텍스트를 적절한 크기의 청크로 나눕니다.
  2. 지식 그래프 구축: 각 텍스트 청크에서 LLM (Large Language Model)을 사용하여 핵심 정보인 엔터티(개체)와 관계를 추출하고, 이를 바탕으로 지식 그래프를 구축합니다.
  3. 커뮤니티 탐색: 구축된 지식 그래프에서 서로 밀접하게 연결된 노드들을 그룹화하여 커뮤니티를 형성합니다. 이때 Leiden 알고리즘과 같은 커뮤니티 탐지 알고리즘이 사용됩니다.
  4. 커뮤니티 요약: 각 커뮤니티를 대표하는 요약을 생성합니다.

주석 : 지식 그래프 생성을 위한 엔터티와 관계 도출은 LLM에 의해서 수행됩니다. 엔터티, 관계도출은 누락없이 수행되어야 하므로 LLM에 반복적으로 요청하게 됩니다. 따라서 API 비용이 많이 발생될수 있으니 주의해야합니다. 프롬프트 작성예시는 아래 사이트를 참고하세요.

  1. 질문 분석: 사용자의 질문을 분석하고, 관련된 커뮤니티를 찾습니다.
  2. 답변 생성: 선택된 커뮤니티 요약을 바탕으로 LLM을 사용하여 사용자의 질문에 대한 최종 답변을 생성합니다.

주석 : 질문의 유형은 로컬 검색(특정 주제와 관련된 질문), 글로벌 검색(전체 데이터셋을 이해해야 답변할수 있는 질문)으로 구분될수 있습니다. 로컬 검색은 지식 그래프에 있는 데이터와 원본 텍스트 기반으로 답변하는것이고, 글로벌 검색은 커뮤니티 요약내용을 조합하여 맵리듀스 방식으로 답변을 생성하는것입니다. 질문을 할때 로컬검색으로 할것인지 글로벌 검색을 할것인지 지정할수 있습니다.

📰 예시: 뉴스 기사 분석 📰

사용자: 저는 현재 사건을 교육 과정에 접목하고자 하는 교육자입니다. 뉴스 기사 데이터 세트에서 건강과 웰빙에 대한 정보를 찾고 있습니다.

질문: 이 데이터 세트에서 건강 교육 커리큘럼에 통합할 수 있는 최신 건강 주제는 무엇인가요?

Graph RAG: 뉴스 기사 데이터 세트를 분석한 결과, 최신 건강 주제는 다음과 같습니다. …

👍 Graph RAG의 장점 👍

  • ✅ 높은 정확성: 질문과 관련된 정보만 추출하여 정확한 답변을 제공합니다.
  • ✅ 뛰어난 효율성: 방대한 데이터를 처리하는 데 매우 효율적입니다.
  • ✅ 다양한 분야에 적용 가능: 뉴스, 논문, 보고서 등 다양한 텍스트 데이터에 적용할 수 있습니다.

🚀 결론: Graph RAG - 미래를 향한 똑똑한 선택! 🚀

Graph RAG는 방대한 데이터에서 유용한 정보를 효율적으로 추출하고 활용할 수 있도록 도와줍니다. 이는 곧 더 나은 의사 결정을 가능하게 하고, 궁극적으로는 IT 세계의 혁신을 이끌 것입니다.

참고문서

  • 논문 : https://arxiv.org/pdf/2404.16130
  • MS에서 구현한 GraphRAG 파이썬 라이브러리 : https://github.com/microsoft/graphrag
  • GraphRAG 테스트한 유트브 영상 : https://www.youtube.com/watch?v=vX3A96_F3FU
    • 동영상 내용중 : GraphRAG는 매우 유용하지만 실행 비용이 주요 문제가 될수 있다고 언급하고 있습니다. 예를 들어, 특정 예제에서 GPT-4 요청을 포함하여 총 570회의 API 요청을 보냈으며, 처리된 토큰 수는 100만 개가 넘어 총 비용이 약 7달러가 되었다고 합니다. 이는 대규모 데이터 코퍼스를 처리할 때 상당히 비쌀 수 있으므로 GraphRAG를 사용하기 전에 고려해야 할 중요한 요소라고 언급했습니다.

댓글남기기