BDM’ler Teşhiste İnsanları Geçemiyor: Çalışmanın Sonuçları
Tıp alanında büyük dil modelleri (BDM’ler) teşhiste insanlara göre daha mı zayıf? Oxford araştırması, BDM’lerin gerçek dünya performansını sorgulatıyor.
Giriş
Büyük dil modellerinin (BDM’ler) tıbbi lisans sınavlarını geçmekle kalmayıp, insanlardan daha iyi performans gösterdiğine dair manşetler yıllardır yankılanıyor. Ancak, gerçek dünya uygulamalarında bu yeteneklerin ne kadar geçerli olduğu önemli bir soru işareti olarak kalmaya devam ediyor. Oxford Üniversitesi’ndeki araştırmacılar tarafından yapılan bir çalışma, BDM’lerin teşhis senaryolarında insanlara göre önemli ölçüde daha düşük performans gösterdiğini ortaya koydu. Bu durum, BDM’lerin tıbbi tavsiye için uygunluğu ve çeşitli uygulamalar için chatbot (sohbet robotu) dağıtımlarını değerlendirmek için kullandığımız kıstaslar hakkında soruları gündeme getiriyor. Bu makalede, söz konusu çalışmanın bulgularını, BDM’lerin teşhis yeteneklerini etkileyen faktörleri ve bu teknolojileri daha etkili bir şekilde kullanmak için neler yapılabileceğini inceleyeceğiz. Ayrıca, yapay zeka (YZ) destekli sistemlerin insanlarla etkileşiminde karşılaşılan zorluklar ve çözüm önerileri üzerinde durulacak.
Teşhiste BDM’lerin Gerçek Dünya Sınavı
Oxford Üniversitesi’ndeki araştırmacılar, 1.298 katılımcıyı BDM’lere hasta gibi davranmaları için görevlendirdi. Katılımcılardan, zatürreden soğuk algınlığına kadar çeşitli durumları temsil eden senaryolar sunuldu ve kendi kendine bakımdan ambulans çağırmaya kadar değişen uygun bakım seviyelerini belirlemeleri istendi. Araştırma, popülerlikleri nedeniyle GPT-4o, açık ağırlıkları nedeniyle Llama 3 ve erişim destekli oluşturma yetenekleri (RAG) sayesinde açık web’de arama yapabilen Command R+ dahil olmak üzere üç farklı BDM’yi test etti. Katılımcılar, verilen ayrıntıları kullanarak BDM ile en az bir kez etkileşime girmek zorunda kaldı, ancak kendi teşhislerine ve amaçlanan eylemlerine ulaşmak için istedikleri kadar kullanabildiler. Çalışmanın sonuçları, BDM’lerin tıbbi bilgi sağlamada başarılı olmasına rağmen, insanların bu bilgiyi kullanmada ve doğru kararlar vermede zorlandığını gösterdi.
İnsan Faktörü ve Etkileşimdeki Zorluklar
Çalışma, katılımcıların BDM’lere eksik bilgi sağladığını ve BDM’lerin istemlerini yanlış yorumladığını ortaya koydu. Kullanıcılar, ağrı yerini, şiddetini veya sıklığını belirtmeyerek yetersiz bilgiler sundular. Ayrıca, BDM’ler doğru bilgileri sağladığında bile, katılımcılar her zaman önerilerini takip etmediler. Örneğin, GPT-4o görüşmelerinin %65,7’si senaryo için en az bir ilgili durumu önerirken, katılımcılardan gelen nihai cevapların %34,5’inden daha azı bu ilgili durumları yansıtıyordu. Uzmanlara göre, bu sonuçlar, BDM’lerin karmaşık gerçek dünya senaryolarında insanlarla etkileşimde bulunurken karşılaştığı zorlukları vurgulamaktadır. İnsanların hastalığa özgü tüm ayrıntıları hatırlamaması veya paylaşmaması, BDM’lerin doğru sonuçlar üretmesini zorlaştırır.
YZ Destekli Sistemlerin Geleceği ve Çözüm Önerileri
Oxford çalışması, BDM’lerin insanlarla etkileşimini ölçme yöntemlerimizdeki bir soruna dikkat çekiyor. Yalnızca insan sınavlarında başarılı olan BDM’lere güvenmek, gerçek dünya yetenekleri hakkında yanlış bir güvenlik duygusu yaratabilir. Daha iyi bir yaklaşım, BDM’leri insanlar yerine YZ test cihazlarıyla test etmektir. Oxford araştırmacıları, yapay katılımcılarla da denemeler yaptı. Bu yapay katılımcılar, aynı zamanda insan katılımcıların kullandığı BDM’lerle sohbet ettiler ve daha iyi performans gösterdiler. Bu durum, BDM’lerin diğer BDM’lerle insanlardan daha iyi performans gösterdiğini gösteriyor. Bu sonuçlar, BDM’lerin geliştirilmesi ve dağıtımında daha kapsamlı bir yaklaşım benimsemenin önemini vurgulamaktadır. Müşteri deneyimini anlamak, BDM’leri eğitmek için özenle hazırlanmış materyaller oluşturmak ve sürekli iyileştirme yapmak, bu teknolojilerin potansiyelini tam olarak gerçekleştirmek için hayati öneme sahiptir. Gelecekte, BDM’lerin yetenekleri gelişmeye devam ettikçe, insanlarla daha etkili bir şekilde etkileşim kurabilen ve sağlık hizmetlerinde daha faydalı olabilen daha sofistike sistemler görmeyi bekleyebiliriz.
Sonuç
Sonuç olarak, Oxford Üniversitesi’ndeki çalışmanın bulguları, BDM’lerin tıp alanındaki potansiyelinin yanı sıra, gerçek dünya uygulamalarındaki sınırlamalarını da gözler önüne seriyor. BDM’ler tıbbi sınavları geçmede ve hatta insanlardan daha iyi performans göstermede başarılı olsalar da, teşhis ve tedavi önerilerinde insanlarla etkileşimde bulunduklarında aynı başarıyı gösteremiyorlar. Bu durum, insanların BDM’lerle etkileşim şekli, eksik veya yanlış bilgiler sağlama eğilimi ve BDM’lerin istemleri yorumlama yeteneği gibi çeşitli faktörlerden kaynaklanıyor. Gelecekte, BDM’lerin daha güvenilir ve etkili bir şekilde kullanılabilmesi için, geliştirme süreçlerinde insan odaklı bir yaklaşım benimsenmesi, YZ test cihazlarından yararlanılması ve sürekli iyileştirme yapılması gerekiyor. Aynı zamanda, kullanıcıların hedeflerini ve deneyimlerini dikkate alan, özenle hazırlanmış eğitim materyalleri ve müşteri hizmetleri süreçleri oluşturulması da önem taşıyor. Bu yaklaşımlar, BDM’lerin tıbbi hizmetlerde daha iyi entegre edilmesini ve sağlık hizmetlerinin kalitesinin artırılmasını sağlayacaktır. Bu alandaki gelişmeler, YZ’nin sağlık alanındaki potansiyelini daha da artıracak ve gelecekte daha sofistike çözümlerin önünü açacaktır.