llm-docs-builder는 Markdown 문서를 AI에 최적화된 형식으로 변환하여 HTML 버전 대비 85-95%의 노이즈를 제거합니다. Karafka 프레임워크 문서 시스템에서 추출되어 프로덕션 환경에서 검증되었습니다.
주요 기능 및 이점
-
노이즈 제거 및 비용 절감: HTML 대비 평균 93% 적은 토큰과 20-36배 작은 파일 크기를 달성, RAG 비용을 대폭 절감합니다. YAML/TOML 프런트매터, HTML 주석, 빌드 배지 등 불필요한 요소를 제거합니다.
- RAG 시스템 최적화:
- 계층적 컨텍스트 보존: 문서 청크 시 컨텍스트 손실 방지를 위해 상위 제목 컨텍스트를 하위 제목에 통합합니다 (예:
# Configuration / Consumer Settings / auto_offset_reset). - 의미론적 노이즈 제거: 불필요한 마크업 제거, 상대 링크 절대 URL 확장, 공백 정규화 등을 수행합니다.
- 계층적 컨텍스트 보존: 문서 청크 시 컨텍스트 손실 방지를 위해 상위 제목 컨텍스트를 하위 제목에 통합합니다 (예:
- llms.txt 인덱스 생성: AI 검색 표준인 llms.txt 파일을 생성하여, 문서의 토큰 수와 업데이트 타임스탬프를 포함합니다. AI 에이전트의 효율적인 문서 탐색 및 우선순위 지정에 필수적입니다.
사용 및 배포
-
간편한 설치: Docker를 통해 쉽게 설치합니다.
-
명령어 기반 변환:
bulk-transform으로 최적화,generate로 llms.txt 인덱스 생성. -
지능형 웹 서버 통합: Apache/Nginx 설정을 통해 AI 에이전트에게는 .md 파일을, 인간 사용자에게는 .html 파일을 자동 제공하여 비용 절감 및 원활한 사용자 경험을 제공합니다.
Markdown의 효율성
HTML의 태그 오버헤드와 달리, Markdown은 간결한 서식과 구조적 명확성으로 RAG 시스템에 최적의 토큰 효율성을 제공하며, 비용과 성능을 향상시킵니다.