Tiffany H. Kung, Morgan Cheatham, Arielle Medenilla, Czarina Sillos, Lorie De Leon, Camille Elepaño, Maria Madriaga, Rimel Aggabao, Giezel Diaz-Candido, James Maningo, Victor Tseng. Rendimiento de ChatGPT en USMLE: importancia para la educación médica asistida por IA utilizando modelos de grandes lenguaje. PLOS Digit Health. 2023; 2(2): e0000198. AnsibleHealth, Inc Mountain View, California, United States of America.
Resumen
Evaluamos el rendimiento del modelo de un gran lenguaje llamado ChatGPT en the United States Medical Licensing Exam (USMLE) que consta de tres exámenes: Paso 1, Paso 2CK y Paso 3. ChatGPT lo realizó en o cerca del umbral de aprobación de los tres exámenes sin ninguna formación especializada o refuerzo. Además, ChatGPT demostró un alto nivel de concordancia y perspicacia en sus explicaciones. Estos resultados sugieren que los modelos de grandes lenguajes pueden tener el potencial de ayudar con la educación médica y en la toma de decisiones clínicas.
Resumen del autor
Los sistemas de inteligencia artificial (IA) son una gran promesa para mejorar la atención médica y los resultados de salud. Como tal, es crucial garantizar que el desarrollo de la IA clínica se guíe por los principios de confianza y explicabilidad. Medir el conocimiento médico de la IA en comparación con el de los médicos humanos expertos es un primer paso fundamental para evaluar estas cualidades.
Para lograr esto, evaluamos el desempeño de ChatGPT, una IA basada en lenguaje, en el Examen de Licencias Médicas de los Estados Unidos (USMLE). El USMLE es un conjunto de tres pruebas estandarizadas de conocimiento de nivel experto, que se requieren para obtener la licencia médica en los Estados Unidos.
Descubrimos que ChatGPT funcionó en o cerca del umbral de aprobación del 60% de precisión. Siendo el primero en lograr este punto de referencia, esto marca un hito notable en la maduración de la IA. En forma impresionante, ChatGPT pudo lograr este resultado sin el aporte especializado de entrenadores humanos. Además, ChatGPT mostró un razonamiento comprensible y conocimientos clínicos válidos, lo que brindó una mayor confianza a la confianza y la explicabilidad. Nuestro estudio sugiere que los modelos de lenguaje grande, como ChatGPT, pueden ayudar potencialmente a los estudiantes humanos en un entorno de educación médica, como preludio de la futura integración en la toma de decisiones clínicas.
Introducción
Durante la última década, los avances en las redes neuronales, el aprendizaje profundo y la inteligencia artificial (IA) han transformado la forma en que abordamos una amplia gama de tareas e industrias que van desde la fabricación y las finanzas hasta los productos de consumo. La capacidad de construir modelos de clasificación de alta precisión rápidamente e independientemente del tipo de datos de entrada (por ejemplo, imágenes, texto, audio) ha permitido la adopción generalizada de aplicaciones como el etiquetado automático de objetos y usuarios en fotografías, traducción de texto casi a nivel humano, escaneo automatizado en cajeros automáticos de bancos, e incluso la generación de pies de imagen.
Si bien estas tecnologías han tenido un impacto significativo en muchas industrias, las aplicaciones en la atención clínica siguen siendo limitadas. La proliferación de campos clínicos de texto libre combinados con la falta de interoperabilidad general entre los sistemas de TI de salud contribuyen a la escasez de datos estructurados y legibles por máquina necesarios para el desarrollo de algoritmos de aprendizaje profundo. Incluso cuando se desarrollan algoritmos aplicables a la atención clínica, su calidad tiende a ser muy variable, y muchos no logran generalizar entre entornos debido a la limitada reproducibilidad técnica, estadística y conceptual.
Como resultado, la gran mayoría de las aplicaciones de atención médica exitosas actualmente admiten funciones administrativas que van desde operaciones de pago, procesamiento automatizado de autorizaciones previas y gestión de cadenas de suministro y amenazas de seguridad cibernética. Con raras excepciones, incluso en imágenes médicas, existen relativamente pocas aplicaciones de IA que se usan directamente en la atención clínica generalizada en la actualidad. El desarrollo adecuado de modelos clínicos de IA requiere una gran cantidad de tiempo, recursos y, lo que es más importante, datos de capacitación altamente específicos del dominio y del problema, todos los cuales son escasos en el mundo de la atención médica.
Uno de los desarrollos clave que permitió la IA basada en imágenes clínicas ha sido la capacidad de los grandes modelos de dominio general para funcionar tan bien como, o incluso superar, los modelos de dominio específico. Este desarrollo ha catalizado una actividad significativa de IA en imágenes médicas, donde de otro modo sería un desafío obtener suficientes imágenes clínicas anotadas. De hecho, hoy en día, Inception-V3 sirve como la base básica de muchos de los mejores modelos de imágenes médicas publicados actualmente, que van desde oftalmología y patología a la dermatología.....
(*) Una vez que esta en la pagina del articulo, pulsando el botón derecho puede acceder a su traducción al idioma español Este blog de bioquímica-clínica está destinado a bioquímicos y médicos; la información que contiene es de actualización y queda a criterio y responsabilidad de los mencionados profesionales, el uso que le den a la misma. Nueva presentación el 12 de Junio.
Cordiales saludos.
Dr. Anibal E. Bagnarelli,
Bioquímico-Farmacéutico,UBA.
Ciudad de Buenos Aires, R. Argentina