본 연구는 HuggingFace ADE Corpus V2 데이터셋을 활용하여 진행되었습니다. 이 데이터셋은 23,516개의 예제 중 29%가 긍정적인 ADE 사례로 구성되어 있으나, 대부분 출판된 의료 문헌에서 발췌되어 명확한 사례가 많다는 특성을 가집니다. 이는 작은 샘플에서 100% 재현율과 같은 비현실적인 결과를 초래할 수 있는 데이터셋 편향 문제를 야기합니다.
DSPy.rb는 LLM 최적화를 위해 데이터를 더 많이 주입하는 대신, 프롬프트를 체계적으로 개선하는 접근 방식을 사용합니다.
DSPy.rb를 통한 프롬프트 최적화
-
Baseline Prompt: “Analyze medical text to detect adverse drug events”와 같이 모호한 지시로 LLM이 추측에 의존하게 합니다.
-
Quick Auto Mode (개발):
AutoMode.light를 사용하여 6회의 시도와 3개의 지시 후보를 통해 “증상, 약물, 결과 확인을 통해 약물 부작용 여부를 판단하고, ADE는 ‘1’, 아니면 ‘0’을 짧은 근거와 함께 반환하라”와 같은 구체적인 프롬프트를 생성합니다. -
MIPROv2 (운영):
num_trials,num_instruction_candidates등을 상세히 설정하여 “제공된 의료 텍스트를 증상 및 약물과 함께 분석하고, 약물과 증상 간의 관계를 평가하여 약물 부작용 여부를 판단하라”와 같이 체계적이고 의료 방법론을 반영한 프롬프트를 도출합니다.
핵심 지표 및 트레이드오프
정확도(Accuracy)만으로는 클래스 불균형 문제를 숨길 수 있어, 본 연구에서는 미탐지(False Negatives)에 더 큰 페널티를 부여하는 맞춤형 지표를 사용했습니다(True Positives 1.0, True Negatives 0.5, False Negatives 0.0, False Positives 0.2). 이는 재현율을 극대화하기 위해 정밀도를 기꺼이 희생하는 결과를 가져왔습니다.
-
1,200개 문장(수동 12회 시도): 재현율 82.8%에서 92.2%로 향상(9.4 pp↑), 정밀도 58.2%에서 53.6%로 하락(4.6 pp↓).
-
Claude Sonnet 4.5(자동-medium): 정밀도 48.4%에서 72.0%로 향상(23.6 pp↑), 재현율 100%에서 58.1%로 하락(41.9 pp↓).
샘플 크기의 중요성
작은 샘플(8-25개)에서는 100% 재현율이 보고되었으나, 200개 예제 평가에서는 75%, 그리고 1,200개 예제를 720/240/240으로 분할한 평가에서는 79.6% 정확도/58.2% 정밀도/82.8% 재현율/68.4% F1 스코어가 나타났습니다. 최적화 후에는 76.7% 정확도/53.6% 정밀도/92.2% 재현율/67.8% F1 스코어를 달성하여, 대규모 검증 세트가 실제 트레이드오프를 드러냄을 입증했습니다.
의료 산업 맥락 및 규제 고려사항
2024년 메타 분석에 따르면 ML 시스템의 ADE 감지 민감도는 62-65% 수준입니다. DSPy.rb는 92-95%의 재현율을 달성하며, FDA의 AI/ML SaMD 지침에 따라 데이터 추적성, 인간 감독, 사후 시장 모니터링을 위한 감사 가능한 아티팩트(프롬프트 기록, 평가 요약 등)를 제공합니다. 또한, 단일 API 호출 방식의 예측기는 복잡한 다단계 파이프라인보다 효율적이며, GPT-4o-mini를 사용한 비용은 예측당 약 $0.00013로 매우 저렴합니다.