La IA se acercó a los residentes y estudiantes de medicina con razonamiento clínico en estudios

La IA interactuó con residentes y estudiantes de medicina para estudiar el razonamiento clínico

Un par de estudios sugieren que ChatGPT puede tener algunas de las habilidades de razonamiento que los médicos necesitan para diagnosticar y tratar problemas de salud, aunque nadie predice que los chatbots reemplazarán a los humanos con batas de laboratorio.

En un estudio, los investigadores encontraron que, con el estímulo adecuado, ChatGPT estaba a la par con los médicos residentes al redactar un historial del paciente. Esto es un resumen del curso del problema de salud actual del paciente, desde los síntomas o lesiones iniciales hasta los problemas continuos.

Los médicos lo utilizan para hacer diagnósticos y crear un plan de tratamiento.

Registrar un buen historial es más complicado que simplemente transcribir una entrevista con un paciente. Requiere la capacidad de sintetizar información, extraer los puntos pertinentes y unirlo todo en una narrativa, explicó el Dr. Ashwin Nayak, el investigador principal del estudio.

“A los estudiantes de medicina y a los médicos residentes les lleva años aprenderlo”, dijo Nayak, profesor asistente clínico de medicina en la Universidad de Stanford, en California.

Sin embargo, su equipo descubrió que ChatGPT podía hacerlo tan bien como un grupo de médicos residentes (médicos en formación). La única condición era que el estímulo fuera lo suficientemente bueno: El rendimiento del chatbot era decididamente deficiente cuando faltaban detalles en el estímulo.

ChatGPT funciona con tecnología de inteligencia artificial (IA) que le permite tener conversaciones similares a las humanas, generando respuestas instantáneas a casi cualquier estímulo que una persona pueda plantear. Estas respuestas se basan en el “pre-entrenamiento” del chatbot con una gran cantidad de datos, incluida información recopilada de Internet.

La tecnología se lanzó en noviembre pasado y en dos meses ya tenía 100 millones de usuarios mensuales, un récord según un informe del banco de inversión UBS.

ChatGPT también ha llamado la atención al supuestamente obtener altas calificaciones en los exámenes de ingreso a la universidad SAT, e incluso al aprobar el examen de licencia médica de Estados Unidos.

Sin embargo, los expertos advierten que el chatbot no debe ser la fuente de información médica principal de nadie.

Los estudios han señalado tanto las promesas como las limitaciones de esta tecnología. Por un lado, la precisión de la información depende en gran medida del estímulo que reciba el usuario. En general, cuanto más específica sea la pregunta, más confiable será la respuesta.

Un estudio reciente se centró en el cáncer de mama y encontró que ChatGPT a menudo ofrecía respuestas apropiadas a las preguntas planteadas por los investigadores. Sin embargo, si la pregunta era amplia y compleja, como “¿Cómo puedo prevenir el cáncer de mama?”, el chatbot era poco confiable y daba respuestas diferentes cada vez que se repetía la pregunta.

También está el problema bien documentado de las “alucinaciones”. Es decir, el chatbot tiende a inventar información en ocasiones, especialmente cuando el estímulo se trata de un tema complicado.

Esto se confirmó en el estudio de Nayak, que se publicó en línea el 17 de julio como una carta de investigación en JAMA Internal Medicine.

Los investigadores enfrentaron a ChatGPT con cuatro médicos residentes senior para redactar historiales basados en “entrevistas” con pacientes hipotéticos. Treinta médicos supervisores evaluaron los resultados en cuanto al nivel de detalle, concisión y organización.

Los investigadores utilizaron tres estímulos diferentes para asignar la tarea al chatbot y los resultados variaron ampliamente. Con el estímulo menos detallado, “Lea la siguiente entrevista con un paciente y redacte un [historial]. No use abreviaturas ni siglas”, el chatbot tuvo un desempeño deficiente. Solo el 10% de sus informes se consideraron aceptables.

Se necesitó un estímulo mucho más detallado para elevar la tasa de aceptación de la tecnología al 43%, a la par con los médicos residentes. Además, el chatbot era más propenso a las alucinaciones, como inventar la edad o el género de un paciente, cuando la calidad del estímulo era más baja.

“Lo preocupante es que, en el mundo real, las personas no van a diseñar el ‘mejor’ estímulo”, dijo el Dr. Cary Gross, profesor de la Escuela de Medicina de Yale, quien coescribió un comentario publicado junto con los hallazgos.

Gross señaló que la IA tiene un “tremendo” potencial como herramienta de apoyo para los profesionales médicos en el proceso de diagnóstico y otras tareas críticas. Sin embargo, aún se deben solucionar los problemas.

“Esto no está listo para el horario estelar”, dijo Gross.

En el segundo estudio, otro equipo de Stanford encontró que el último modelo de ChatGPT (hasta abril de 2023) superó a los estudiantes de medicina en preguntas de examen final que requieren “razonamiento clínico”, es decir, la capacidad de sintetizar información sobre los síntomas e historial de un paciente hipotético y llegar a un diagnóstico probable.

Nuevamente, dijo Gross, las implicaciones de eso aún no están claras, pero nadie está sugiriendo que los chatbots sean mejores médicos que los humanos.

Una pregunta amplia, dijo, es cómo se debe incorporar la inteligencia artificial en la educación y formación médica.

Aunque los estudios se centraron en los médicos, tanto Nayak como Gross dijeron que ofrecen conclusiones similares para el público en general: en pocas palabras, las indicaciones importan y las alucinaciones son reales.

“Podrías encontrar información precisa, podrías encontrar información fabricada sin intención”, dijo Gross. “No aconsejaría a nadie que tome decisiones médicas basadas en esto”.

Uno de los principales atractivos de los chatbots es su naturaleza conversacional. Pero eso también puede ser un peligro potencial, dijo Nayak.

“Suena como alguien que tiene un conocimiento sofisticado del tema”, señaló.

PREGUNTA

Pero si tienes preguntas sobre un problema médico grave, Nayak dijo que debes consultar a tu proveedor de atención médica humano.

Más información

El Pew Research Center tiene más información sobre la tecnología de inteligencia artificial.

FUENTES: Ashwin Nayak, MD, MS, profesor asistente clínico, medicina, Escuela de Medicina de la Universidad de Stanford, Stanford, California; Cary Gross, MD, profesor, medicina y epidemiología, Escuela de Medicina de Yale, New Haven, Connecticut; JAMA Internal Medicine, 17 de julio de 2023, en línea