Un modello IA di OpenAI ha fornito diagnosi più accurate di due medici internisti in uno studio Harvard su 76 casi di pronto soccorso. La ricerca, pubblicata su Science, ha messo a confronto OpenAI o1 e 4o con due attending physician di medicina interna usando dati reali del pronto soccorso del Beth Israel Deaconess Medical Center. Nella fase iniziale di valutazione del paziente, il modello o1 ha indicato una diagnosi esatta o molto vicina nel 67% dei casi, contro il 55% e il 50% dei due medici. Le valutazioni sono state eseguite da altri due medici senza sapere quali risposte provenissero dall’IA e quali da esseri umani.
OpenAI o1 raggiunge il 67% in fase di valutazione preliminare
Il test principale ha usato le cartelle cliniche elettroniche di 76 pazienti arrivati al pronto soccorso del Beth Israel. I ricercatori hanno fornito ai modelli AI gli stessi dati non pre-elaborati disponibili ai medici nel momento della diagnosi. Il confronto ha incluso OpenAI o1, OpenAI 4o e due medici internisti.
Il risultato più forte riguarda il primo punto diagnostico, cioè il triage iniziale. In quella fase, le informazioni disponibili sul paziente sono più limitate e la decisione deve essere presa con maggiore urgenza. OpenAI o1 ha raggiunto il 67% di diagnosi esatte o molto vicine. I due medici hanno ottenuto il 55% e il 50% nello stesso confronto.
Lo studio ha valutato anche altri momenti del percorso clinico. Secondo i ricercatori, o1 ha ottenuto risultati pari o superiori ai medici in più benchmark di ragionamento clinico. Il lavoro è stato condotto da un gruppo di medici e informatici di Harvard Medical School e Beth Israel Deaconess Medical Center.
Lo studio riguarda dati testuali e non sostituisce le prove cliniche
La ricerca non ha testato l’uso dell’AI come sistema decisionale autonomo in un pronto soccorso reale. I modelli hanno lavorato su informazioni testuali presenti nelle cartelle cliniche. Non hanno valutato segnali non testuali come esame fisico diretto, comportamento del paziente, immagini diagnostiche o altri input clinici visivi.
Gli autori chiedono trial prospettici per valutare questi modelli in contesti di cura reali. Il confronto ha inoltre coinvolto due medici internisti, non specialisti di medicina d’emergenza.
Naturalmente, siamo ancora ben lontani dal poter affermare che l’IA può o potrà sostituire medici specializzati nel campo della diagnosi. Ma, considerando gli enormi passi avanti degli ultimi due anni, siamo sicuri che non possa succedere in futuro?