정보 관리 파이프라인 개요
필자는 정보 과부하 해소를 위해 Node-RED 프로토타입을 거쳐 Python 기반의 정교한 파이프라인을 구축했습니다. 이 시스템은 fetcher, summarizer, publisher, uploader 등 독립적인 asyncio 워커로 구성됩니다.
주요 기능 및 기술
-
피드 수집 및 정규화:
aiohttp기반 fetcher는 RSS/Atom 피드를 수집하고feedparser로 파싱하여 SQLite에 저장합니다. 불완전한 피드를 보완하고자readability와markdownify로 원본 페이지 전체 텍스트를 추출, 정규화하며, FreshRSS 스크래핑을 대체 수단으로 활용합니다. -
AI 기반 요약:
gpt-5-mini를 사용하여 항목들을 배치 처리하여 요약하고 주제를 추출합니다. “You are a news editor at the Economist” 프롬프트로 일관된 톤과 간결성을 유지합니다. -
콘텐츠 클러스터링 및 병합: 여러 뉴스 소스의 중복 문제를 해결하기 위해 효율적인
simhash를 사용합니다. 이는 SQLite의 BM25 인덱싱과 결합하여 높은 중복 탐지율을 보이며, 클러스터링된 이야기는 재요약되어 통합된 기사로 제공됩니다. -
재발성 뉴스 처리:
simhash를 활용하여 과거 요약과 유사한 새 요약을 “재발성 뉴스”로 분류, 게시판 하단에 그룹화하여 사용자가 쉽게 건너뛸 수 있도록 합니다. -
Tor 프록시 활용: 일부 신문사의 지역 제한 콘텐츠 접근을 위해 Tor 프록시를 사용하여 선택된 피드를 수집합니다.
결과
이 파이프라인을 통해 필자는 매일 수백 개의 개별 항목 대신 약 15개의 응축된 뉴스 게시판을 받아보며, 중요 정보에 효율적으로 집중할 수 있게 되었습니다.