Follow MAD

Yapay Zekâ Tıp Sınavlarında Başarılı, Sohbetle Teşhiste Başarısız

Paylaş:

Yapay zekâ (YZ) modelleri, çoktan seçmeli sorulardan oluşan tıp sınavlarında yüksek puanlar alsa da, hastalarla etkileşimli bir biçimde konuşarak teşhis koyma aşamasında beklentilerin altında kalıyor. Harvard Üniversitesi’nden Pranav Rajpurkar önderliğindeki araştırma ekibi, büyük dil modellerinin (Large Language Models, LLM) sohbet temelli teşhis süreçlerinde önemli oranda zorlandığını gözler önüne serdi.

CRAFT-MD Değerlendirmesi: 2000 Vaka ve Simüle Edilmiş “Hasta”

Araştırmacılar, CRAFT-MD adlı yeni bir değerlendirme yöntemi geliştirdi. Bu kapsamda, ABD tıp sınavlarından alınan 2000 vaka örneği temel alınarak kurgulanan “hasta” karakterleri oluşturuldu. “Hasta” rolünü oynayan yapay zekâ, OpenAI’nin GPT-4 modeliyle yönlendirildi. Test edilen klinik YZ modellerinin görevi, sohbet ederek hastalık öyküsünü almak ve doğru teşhise ulaşmaktı. Değerlendirmeler hem GPT-4’ün karşılaştırma yöntemiyle hem de insan uzmanların son kontrolleriyle yapıldı.

Bizi Takip Edin!

Yazılı Vakalarla Yüksek, Sohbetle Düşük Başarı Oranı

Sonuçlara göre GPT-4, yazılı vaka özetlerinde çoktan seçmeli tanı sorularına %82 doğrulukla cevap verirken, sohbet bazlı serbest metin sorularında bu oran %26’ya kadar düştü. GPT-3.5, Meta’nın Llama-2-7b modeli ve Mistral AI’nın Mistral-v2-7b modeli de benzer veya daha düşük performans sergiledi. Ayrıca, GPT-4 gibi daha gelişmiş modeller bile çoğu zaman hastanın tüm tıbbi geçmişini eksiksiz bir şekilde ortaya çıkaramadı.

Gerçek Hayata Yakın Değerlendirme: Yeni Bir Standart

Scripps Research Translational Institute’tan Eric Topol’a göre, sohbet temelli değerlendirmeler yapay zekâ klinik akıl yürütme kabiliyetini daha gerçekçi ölçüyor. Harvard ekibi ise gerçek dünyanın daha da karmaşık olduğu uyarısında bulunuyor: Farklı hastalar, çoklu uzmanlık alanları ve sosyal faktörler devreye girdiğinde, yapay zekânın deneyimli hekimlerin yerini alması beklenmiyor. Ancak doğru eğitim ve kontrol mekanizmalarıyla bu modellerin klinik karar verme süreçlerinde önemli katkı sunabileceğinin de altı çiziliyor.

Kaynak
New Scientist

Reklam