DSPy.rb를 이용한 약물 부작용(ADE) 감지 LLM 최적화 및 정밀도-재현율 트레이드오프 분석

도입

이 글은 DSPy.rb를 사용하여 약물 부작용(ADE) 감지 LLM을 개발하고 최적화하는 과정을 상세히 다룹니다. 초기 테스트에서 100% 재현율을 보였던 모델이 대규모 데이터셋에서는 75%로 하락하는 현실을 직면한 후, 저자는 DSPy.rb를 활용하여 프롬프트 엔지니어링의 한계를 극복하고자 했습니다. 특히, 300~1,200개의 ADE 문장을 활용한 반복적인 실험을 통해 정밀도와 재현율 간의 복잡한 균형을 탐색하며, DSPy.rb가 LLM의 '연구 데스크'로서 어떻게 기능하는지를 보여줍니다.

본 연구는 HuggingFace ADE Corpus V2 데이터셋을 활용하여 진행되었습니다. 이 데이터셋은 23,516개의 예제 중 29%가 긍정적인 ADE 사례로 구성되어 있으나, 대부분 출판된 의료 문헌에서 발췌되어 명확한 사례가 많다는 특성을 가집니다. 이는 작은 샘플에서 100% 재현율과 같은 비현실적인 결과를 초래할 수 있는 데이터셋 편향 문제를 야기합니다.

DSPy.rb는 LLM 최적화를 위해 데이터를 더 많이 주입하는 대신, 프롬프트를 체계적으로 개선하는 접근 방식을 사용합니다.

DSPy.rb를 통한 프롬프트 최적화

Baseline Prompt: “Analyze medical text to detect adverse drug events”와 같이 모호한 지시로 LLM이 추측에 의존하게 합니다.
Quick Auto Mode (개발): AutoMode.light를 사용하여 6회의 시도와 3개의 지시 후보를 통해 “증상, 약물, 결과 확인을 통해 약물 부작용 여부를 판단하고, ADE는 ‘1’, 아니면 ‘0’을 짧은 근거와 함께 반환하라”와 같은 구체적인 프롬프트를 생성합니다.
MIPROv2 (운영): num_trials, num_instruction_candidates 등을 상세히 설정하여 “제공된 의료 텍스트를 증상 및 약물과 함께 분석하고, 약물과 증상 간의 관계를 평가하여 약물 부작용 여부를 판단하라”와 같이 체계적이고 의료 방법론을 반영한 프롬프트를 도출합니다.

핵심 지표 및 트레이드오프

정확도(Accuracy)만으로는 클래스 불균형 문제를 숨길 수 있어, 본 연구에서는 미탐지(False Negatives)에 더 큰 페널티를 부여하는 맞춤형 지표를 사용했습니다(True Positives 1.0, True Negatives 0.5, False Negatives 0.0, False Positives 0.2). 이는 재현율을 극대화하기 위해 정밀도를 기꺼이 희생하는 결과를 가져왔습니다.

1,200개 문장(수동 12회 시도): 재현율 82.8%에서 92.2%로 향상(9.4 pp↑), 정밀도 58.2%에서 53.6%로 하락(4.6 pp↓).
Claude Sonnet 4.5(자동-medium): 정밀도 48.4%에서 72.0%로 향상(23.6 pp↑), 재현율 100%에서 58.1%로 하락(41.9 pp↓).

샘플 크기의 중요성

작은 샘플(8-25개)에서는 100% 재현율이 보고되었으나, 200개 예제 평가에서는 75%, 그리고 1,200개 예제를 720/240/240으로 분할한 평가에서는 79.6% 정확도/58.2% 정밀도/82.8% 재현율/68.4% F1 스코어가 나타났습니다. 최적화 후에는 76.7% 정확도/53.6% 정밀도/92.2% 재현율/67.8% F1 스코어를 달성하여, 대규모 검증 세트가 실제 트레이드오프를 드러냄을 입증했습니다.

의료 산업 맥락 및 규제 고려사항

2024년 메타 분석에 따르면 ML 시스템의 ADE 감지 민감도는 62-65% 수준입니다. DSPy.rb는 92-95%의 재현율을 달성하며, FDA의 AI/ML SaMD 지침에 따라 데이터 추적성, 인간 감독, 사후 시장 모니터링을 위한 감사 가능한 아티팩트(프롬프트 기록, 평가 요약 등)를 제공합니다. 또한, 단일 API 호출 방식의 예측기는 복잡한 다단계 파이프라인보다 효율적이며, GPT-4o-mini를 사용한 비용은 예측당 약 $0.00013로 매우 저렴합니다.

결론

DSPy.rb는 의료 애플리케이션을 위한 LLM 최적화에 있어 체계적이고 효과적인 도구임을 입증했습니다. 이 연구를 통해 얻은 주요 교훈은 다음과 같습니다. 첫째, 샘플 크기는 여전히 매우 중요하며, 작은 샘플은 모델 성능을 과대평가할 수 있습니다. 100% 재현율 주장은 항상 회의적으로 접근해야 합니다. 둘째, 시험 예산 및 점수화 방식은 정밀도-재현율 곡선을 따라 이동하며, 임상적 요구사항에 맞춰 최적의 지점을 선택해야 합니다. 셋째, 단일 API 호출 방식의 직접적인 접근이 복잡한 다단계 파이프라인보다 효율적이며, 감사 가능한 아티팩트를 제공합니다. 최종적으로, 수동 12회 시도 시 92.2% 재현율, Claude Sonnet 자동-medium 시 72.0% 정밀도를 달성하는 등 다양한 트레이드오프 지점을 통해 임상적 허용 범위에 맞는 최적의 구성을 선택할 수 있음을 확인했습니다.

DSPy.rb를 이용한 약물 부작용(ADE) 감지 LLM 최적화 및 정밀도-재현율 트레이드오프 분석

Training Medical LLM Predictors: Process, Costs, and Optimization with DSPy.rb

핵심 요약

도입

DSPy.rb를 통한 프롬프트 최적화

핵심 지표 및 트레이드오프

샘플 크기의 중요성

의료 산업 맥락 및 규제 고려사항

결론

관련 글들

스탠포드 MIPROv2 논문과 DSPy.rb 구현: 프롬프트 최적화의 체계적인 접근법

DSPy.rb의 평가자 루프를 통한 LLM 응답 품질 최적화

DSPy.rb를 활용한 Chain-of-Thought 요약 성능 실험 및 평가

DSPy.rb, BAML 스키마 형식 도입으로 LLM 프롬프트 토큰 효율성 대폭 향상

댓글 0

댓글 작성