지식 그래프의 역사와 유형
지식 그래프는 신용카드 사기 탐지, 석유 및 가스 산업, 의료 연구 등 다양한 분야에서 수십 년간 대규모로 활용되어 왔습니다. 정보 이론과 시맨틱 구조의 개념은 1960년대까지 거슬러 올라가며, 인터넷과 시맨틱 웹의 등장으로 정보 교환의 필요성이 증대되면서 주어-술어-객체(Subject-Predicate-Object) 구조가 이상적인 방법으로 부상했습니다.
주요 지식 그래프 접근 방식
-
속성 그래프(Property Graphs): Neo4j에 의해 대중화되었으며, 데이터 구조화 및 검색에 중점을 둡니다. 주어, 술어, 객체 각각에 속성을 추가할 수 있어 풍부한 메타데이터를 표현할 수 있습니다. Cypher 언어를 사용하며, 현재 ISO 표준 GQL로 발전했습니다.
-
RDF 생태계(RDF Ecosystem): 정보 교환에 중점을 둡니다. RDF/XML, JSON-LD, Turtle 등 다양한 표현 방식이 있으며, OWL과 같은 온톨로지 구조를 포함합니다. 복잡한 구문과 학습 난이도가 있지만, 데이터의 문맥을 보존하는 데 강력한 기능을 제공합니다.
AI 시대의 모호성 문제 해결
기존 RAG(Retrieval Augmented Generation) 방식은 텍스트 청킹 시 문맥을 잃어버려 모호성(disambiguation) 문제를 야기합니다. 예를 들어, “Fred lives with hope”에서 ‘hope’는 이름일 수도 있고, ‘희망’이라는 추상적인 개념일 수도 있습니다. 소설에서 인물이 대명사로만 언급될 경우, 텍스트 청크만으로는 누구를 지칭하는지 알기 어렵습니다. 컨텍스트 그래프는 이러한 문맥적 정보를 그래프 구조 내에 연결하여 모호성을 해결합니다.
컨텍스트 그래프의 핵심 기능
-
문맥 보존: 데이터가 원래의 문맥에서 분리될 때 손실될 수 있는 정보를 그래프 구조를 통해 보존합니다.
-
시간적 관계(Temporal Relationships): 데이터의 ‘신선도’와 시간에 따른 인식 변화를 추적하여, 단순한 타임스탬프를 넘어선 풍부한 시간적 문맥을 제공합니다.
-
고도화된 그래프 분석(Graph Analytics): 수십 년간 발전해 온 그래프 분석 기술(홉 수 계산, 최단/최장 경로 탐색, 클러스터링, 커뮤니티 감지, 이상 탐지 등)을 활용하여 데이터 간의 복잡한 관계를 파악하고 AI 모델에 최적화된 정보를 제공합니다.
AI를 위한 데이터 제시 방식
컨텍스트 그래프는 ‘AI에 최적화된 그래프(AI optimized graph)’로 정의됩니다. LLM(Large Language Model)에 정보를 제공할 때, 단순히 텍스트로 재구성하는 것보다 RDF 트리플과 같은 기계 판독 가능한 구조화된 형식으로 제공하는 것이 훨씬 효과적입니다. LLM은 이러한 구조의 의미와 패턴을 이해하여 더 나은 응답을 생성할 수 있습니다. Trustgraph는 이미 수십억 개의 노드와 엣지를 가진 컨텍스트 그래프를 구축하고 있으며, 이는 이론이 아닌 실제 작동하는 기술입니다.