DSPy.rb를 이용한 약물 부작용(ADE) 감지 LLM 최적화 및 정밀도-재현율 트레이드오프 분석

Training Medical LLM Predictors: Process, Costs, and Optimization with DSPy.rb

작성자
Rails Upgrade News
발행일
2025년 08월 11일

핵심 요약

  • 1 DSPy.rb를 사용하여 약물 부작용(ADE) 감지 LLM의 프롬프트를 체계적으로 최적화하여 92.2%의 높은 재현율을 달성했습니다.
  • 2 작은 샘플 크기가 모델 성능을 과대평가하며, 통계적으로 유의미한 대규모 검증 세트가 실제 정밀도-재현율 트레이드오프를 드러냄을 확인했습니다.
  • 3 DSPy.rb의 MIPROv2 최적화는 프롬프트 엔지니어링을 자동화하고, 의료 분야에서 요구되는 높은 재현율과 규제 준수를 위한 감사 가능성을 제공합니다.

도입

이 글은 DSPy.rb를 사용하여 약물 부작용(ADE) 감지 LLM을 개발하고 최적화하는 과정을 상세히 다룹니다. 초기 테스트에서 100% 재현율을 보였던 모델이 대규모 데이터셋에서는 75%로 하락하는 현실을 직면한 후, 저자는 DSPy.rb를 활용하여 프롬프트 엔지니어링의 한계를 극복하고자 했습니다. 특히, 300~1,200개의 ADE 문장을 활용한 반복적인 실험을 통해 정밀도와 재현율 간의 복잡한 균형을 탐색하며, DSPy.rb가 LLM의 '연구 데스크'로서 어떻게 기능하는지를 보여줍니다.

본 연구는 HuggingFace ADE Corpus V2 데이터셋을 활용하여 진행되었습니다. 이 데이터셋은 23,516개의 예제 중 29%가 긍정적인 ADE 사례로 구성되어 있으나, 대부분 출판된 의료 문헌에서 발췌되어 명확한 사례가 많다는 특성을 가집니다. 이는 작은 샘플에서 100% 재현율과 같은 비현실적인 결과를 초래할 수 있는 데이터셋 편향 문제를 야기합니다.

DSPy.rb는 LLM 최적화를 위해 데이터를 더 많이 주입하는 대신, 프롬프트를 체계적으로 개선하는 접근 방식을 사용합니다.

DSPy.rb를 통한 프롬프트 최적화

  • Baseline Prompt: “Analyze medical text to detect adverse drug events”와 같이 모호한 지시로 LLM이 추측에 의존하게 합니다.

  • Quick Auto Mode (개발): AutoMode.light를 사용하여 6회의 시도와 3개의 지시 후보를 통해 “증상, 약물, 결과 확인을 통해 약물 부작용 여부를 판단하고, ADE는 ‘1’, 아니면 ‘0’을 짧은 근거와 함께 반환하라”와 같은 구체적인 프롬프트를 생성합니다.

  • MIPROv2 (운영): num_trials, num_instruction_candidates 등을 상세히 설정하여 “제공된 의료 텍스트를 증상 및 약물과 함께 분석하고, 약물과 증상 간의 관계를 평가하여 약물 부작용 여부를 판단하라”와 같이 체계적이고 의료 방법론을 반영한 프롬프트를 도출합니다.

핵심 지표 및 트레이드오프

정확도(Accuracy)만으로는 클래스 불균형 문제를 숨길 수 있어, 본 연구에서는 미탐지(False Negatives)에 더 큰 페널티를 부여하는 맞춤형 지표를 사용했습니다(True Positives 1.0, True Negatives 0.5, False Negatives 0.0, False Positives 0.2). 이는 재현율을 극대화하기 위해 정밀도를 기꺼이 희생하는 결과를 가져왔습니다.

  • 1,200개 문장(수동 12회 시도): 재현율 82.8%에서 92.2%로 향상(9.4 pp↑), 정밀도 58.2%에서 53.6%로 하락(4.6 pp↓).

  • Claude Sonnet 4.5(자동-medium): 정밀도 48.4%에서 72.0%로 향상(23.6 pp↑), 재현율 100%에서 58.1%로 하락(41.9 pp↓).

샘플 크기의 중요성

작은 샘플(8-25개)에서는 100% 재현율이 보고되었으나, 200개 예제 평가에서는 75%, 그리고 1,200개 예제를 720/240/240으로 분할한 평가에서는 79.6% 정확도/58.2% 정밀도/82.8% 재현율/68.4% F1 스코어가 나타났습니다. 최적화 후에는 76.7% 정확도/53.6% 정밀도/92.2% 재현율/67.8% F1 스코어를 달성하여, 대규모 검증 세트가 실제 트레이드오프를 드러냄을 입증했습니다.

의료 산업 맥락 및 규제 고려사항

2024년 메타 분석에 따르면 ML 시스템의 ADE 감지 민감도는 62-65% 수준입니다. DSPy.rb는 92-95%의 재현율을 달성하며, FDA의 AI/ML SaMD 지침에 따라 데이터 추적성, 인간 감독, 사후 시장 모니터링을 위한 감사 가능한 아티팩트(프롬프트 기록, 평가 요약 등)를 제공합니다. 또한, 단일 API 호출 방식의 예측기는 복잡한 다단계 파이프라인보다 효율적이며, GPT-4o-mini를 사용한 비용은 예측당 약 $0.00013로 매우 저렴합니다.

결론

DSPy.rb는 의료 애플리케이션을 위한 LLM 최적화에 있어 체계적이고 효과적인 도구임을 입증했습니다. 이 연구를 통해 얻은 주요 교훈은 다음과 같습니다. 첫째, 샘플 크기는 여전히 매우 중요하며, 작은 샘플은 모델 성능을 과대평가할 수 있습니다. 100% 재현율 주장은 항상 회의적으로 접근해야 합니다. 둘째, 시험 예산 및 점수화 방식은 정밀도-재현율 곡선을 따라 이동하며, 임상적 요구사항에 맞춰 최적의 지점을 선택해야 합니다. 셋째, 단일 API 호출 방식의 직접적인 접근이 복잡한 다단계 파이프라인보다 효율적이며, 감사 가능한 아티팩트를 제공합니다. 최종적으로, 수동 12회 시도 시 92.2% 재현율, Claude Sonnet 자동-medium 시 72.0% 정밀도를 달성하는 등 다양한 트레이드오프 지점을 통해 임상적 허용 범위에 맞는 최적의 구성을 선택할 수 있음을 확인했습니다.

댓글 0

로그인이 필요합니다

댓글을 작성하거나 대화에 참여하려면 로그인이 필요합니다.

로그인 하러 가기

아직 댓글이 없습니다

첫 번째 댓글을 작성해보세요!