Yapay Zeka Tıbbi Sorularınıza Doktorunuzdan Daha Iyi Cevap Verebilir mi?

Home Page

Blog

Sağlıkta Yenilikler

Yapay Zeka Tıbbi Sorularınıza Doktorunuzdan Daha Iyi Cevap Verebilir mi?

Geçtiğimiz yıl Yapay Zeka (YZ) ile ilgili bir çalışmayı anlatan başlıklar en hafif tabirle dikkat çekiciydi:

'''ChatGPT, empati ve tavsiye açısından gerçek doktorlardan daha iyi olarak değerlendirildi''
''ChatGPT, gerçek bir doktordan daha kaliteli yanıtlar sağlıyor ve daha empatik''

İlk bakışta, yapay zeka kullanan bir sohbet robotunun hasta sorularına iyi yanıtlar üretebileceği fikri şaşırtıcı değil. Sonuçta, ChatGPT Wharton MBA için final sınavını geçtiğini , birkaç saat içinde bir kitap yazdması ve orijinal müzik bestelemesiyle övünüyor .

Ama doktorunuzdan daha fazla empati göstermek? Her iki tarafa da kalite ve empati konusunda son onuru vermeden önce, bir kez daha bakalım.

Yapay zeka sağlık sektöründe hangi görevleri üstleniyor?

Yapay zekanın tıbbi uygulamalarının hızla büyüyen listesi halihazırda doktor notları hazırlamak, teşhis önermek, röntgen ve MRI taramalarını okumaya yardımcı olmak ve kalp atış hızı veya oksijen seviyesi gibi gerçek zamanlı sağlık verilerini izlemek gibi alanları içeriyor.

Ancak YZ tarafından üretilen yanıtların gerçek doktorlardan daha empatik olabileceği fikri oldukça şaşırtıcı. En gelişmiş makine bile bu önemli ve özellikle insani erdemi göstermede bir doktordan nasıl daha iyi performans gösterebilir?

Yapay zeka hastaların sorularına iyi yanıtlar verebilir mi?

Doktorunuzun ofisini ilaçlarınızdan biriyle ilgili bir soruyla aradığınızı düşünün. Günün ilerleyen saatlerinde, sağlık ekibinizdeki bir klinisyen sizi geri arayarak konuyu tartışır.

Şimdi farklı bir senaryo hayal edin: sorunuzu e-posta veya mesaj yoluyla soruyorsunuz ve dakikalar içinde yapay zeka kullanan bir bilgisayar tarafından üretilen bir cevap alıyorsunuz. Bu iki durumdaki tıbbi cevaplar kalite açısından nasıl karşılaştırılır? Ve empati açısından nasıl karşılaştırılabilirler?

Bu soruları cevaplamak için araştırmacılar, gönüllü olarak cevap veren doktorlara yöneltilen, çevrimiçi bir sosyal medya sitesinin anonim kullanıcılarından 195 soru ve cevap topladı. Sorular daha sonra ChatGPT'ye gönderildi ve chatbot'un cevapları toplandı.

Üç doktor veya hemşireden oluşan bir panel daha sonra her iki cevap setini de kalite ve empati açısından derecelendirdi. Panelistlere beş puanlık bir ölçekte "hangi cevap daha iyiydi?" diye soruldu. Kalite için derecelendirme seçenekleri şunlardı: çok zayıf, zayıf, kabul edilebilir, iyi veya çok iyi. Empati için derecelendirme seçenekleri şunlardı: empatik değil, biraz empatik, orta derecede empatik, empatik ve çok empatik.

Çalışmada ne bulundu?

Sonuçlar yakın bile değildi. Cevapların yaklaşık %80'i için ChatGPT'yi doktorlardan daha iyi olarak değerlendirildi.

İyi veya çok iyi kalitede yanıtlar: ChatGPT yanıtların %78'i için bu derecelendirmeleri alırken, doktorlar yalnızca yanıtların %22'sinde bunu başardı. Empatik veya çok empatik cevaplar: ChatGPT %45, hekimler ise %4,6 puan aldı.
Özellikle hekimlerin verdiği cevapların uzunluğu (ortalama 52 kelime) ChatGPT'nin cevaplarına (ortalama 211 kelime) göre çok daha kısaydı. Dediğim gibi, yakın bile değil. Peki, tüm o nefes nefese manşetler sonuçta uygun muydu?
O kadar hızlı değil! Bu yapay zeka araştırmasının önemli sınırlamaları. Çalışma iki temel soruyu yanıtlamak için tasarlanmamıştı:

Yapay zeka yanıtları, karışıklığa veya zarara yol açmadan doğru tıbbi bilgi sunuyor ve hasta sağlığını iyileştiriyor mu?
Hastalar doktorlarına sordukları soruların bir bot tarafından cevaplanabileceği fikrini kabul edecekler mi?

Ve bazı ciddi sınırlamaları da vardı:

Cevapları değerlendirme ve karşılaştırma: Değerlendiriciler kalite ve empati için test edilmemiş, öznel ölçütler uyguladılar. Önemlisi, cevapların gerçek doğruluğunu değerlendirmediler. Cevaplar, ChatGPT'de not edilen bir sorun olan uydurma(!) açısından da değerlendirilmedi.
Cevapların uzunluğundaki fark: Daha detaylı cevaplar sabrı veya endişeyi yansıtıyor gibi görünebilir. Bu nedenle, empati için daha yüksek puanlar gerçek empatiden çok kelime sayısıyla ilgili olabilir. Ancak bu her zaman geçerli değildir.
Eksik körleme: Önyargıyı en aza indirmek için, değerlendiricilerin bir cevabın bir hekimden mi yoksa ChatGPT'den mi geldiğini bilmeleri beklenmiyordu. Bu, "körleme" adı verilen yaygın bir araştırma tekniğidir. Ancak YZ tarafından üretilen iletişim her zaman tam olarak bir insan gibi ses çıkarmamakta ve YZ cevapları önemli ölçüde daha uzun olmakta. Bu nedenle, en azından bazı cevaplar için değerlendiricilerin körlenmemiş olması muhtemeldir.

Doktorlar, YZ tarafından üretilen yanıtlardan empati ifadeleri hakkında bir şeyler öğrenebilir mi? Muhtemelen. YZ, bir doktorun inceleyip revize ettiği yanıtlar üreten bir iş birliği aracı olarak iyi çalışabilir mi? Aslında, bazı tıbbi sistemler halihazırda YZ'yi bu şekilde kullanıyor. Ancak, doğruluğunun sağlam bir kanıtı ve sağlık profesyonelleri tarafından gerçek bir denetim olmadan hasta sorularına verilen YZ yanıtlarına güvenmek erken görünüyor. Bu çalışma ikisini de sağlamak için tasarlanmamıştı.

Ve bu arada, ChatGPT de aynı fikirde: ona tıbbi soruları bir doktordan daha iyi cevaplayıp cevaplayamayacağını sorarsanız cevabı ''HAYIR'' oluyor.

Yapay zeka cinini hastaların sorularını yanıtlamak üzere serbest bırakmanın zamanının ne zaman geldiğini bilmek için daha fazla araştırmaya ihtiyacımız olacak. Henüz orada olmayabiliriz - ama yaklaşıyoruz.

Araştırma hakkında daha fazla bilgi mi istiyorsunuz ? Doktorlar ve bir sohbet robotu tarafından oluşturulan yanıtları okuyun , örneğin bir kürdan yuttuktan sonra ortaya çıkabilecek sonuçlarla ilgili bir endişeye verilen yanıtlar gibi.

Sağlıklı günler dileriz!

Kaynaklar:
- https://pubmed.ncbi.nlm.nih.gov/28126242/
- https://pubmed.ncbi.nlm.nih.gov/36988595/
- https://www.health.harvard.edu/blog/can-ai-answer-medical-questions-better-than-your-doctor-202403273028

Hızlı Erişim

destek@doctorcons.com

+90 (545) 313 2667