jueves, 25 de abril de 2024

1059- ChatBots en salud: es mejor preguntar en Ingles

Andrea Gawrylewski, Los chatbots luchan por responder preguntas médicas en idiomas ampliamente hablados. Chief Newsletter Editor SCIAM 2024: Abril 

Resumen (ChatBots)

El artículo "Es mejor preguntar en inglés: evaluación multilingüe de modelos de grandes lenguaje para consultas de atención médica" explora la efectividad de estos grandes lenguajes (LLM) para responder consultas de atención médica en diferentes idiomas. El estudio evalúa el desempeño de LLM como el Chat GPT-3 en la comprensión y respuesta a preguntas médicas planteadas en inglés en comparación con otros idiomas. A través de pruebas rigurosas, los investigadores descubrieron que los LLM generalmente obtienen mejores resultados cuando las preguntas se hacen en inglés en comparación con otros idiomas. Esto sugiere que los modelos lingüísticos son más competentes en el procesamiento de consultas de atención médica en inglés, lo que destaca los desafíos potenciales en la comunicación de atención médica multilingüe y la necesidad de realizar más investigaciones para mejorar la comprensión del lenguaje multilingüe en este campo.

Ananya:   Dos chatbots populares mostraron cierta dificultad a la hora de proporcionar información médica cuando se les pedía responderen en español, hindi o mandarín.

........"  Introducir síntomas médicos en Google es tan común que los médicos han adoptado al motor de búsqueda "Doctor Google". Pero un recién llegado está rápidamente ocupando su lugar: "Doctor Chatbot". Las personas con preguntas médicas se sienten atraídas por la inteligencia artificial generativa porque los chatbots pueden responder preguntas redactadas en forma conversacional con resúmenes simplificados de información técnica compleja. Los usuarios que dirigen preguntas médicas a, por ejemplo, ChatGPT de OpenAI o Gemini de Google también pueden confiar en las respuestas comunicativas de la herramienta de IA más que en una lista de resultados de búsqueda .

Pero es posible que esa confianza no siempre sea acertada. Sigue existiendo la preocupación de si estos modelos pueden proporcionar de manera consistente respuestas seguras y precisas. Los nuevos hallazgos de un estudio, que se presentarán en la Conferencia Web de la Association for Computing Machinery en Singapur en mayo, subrayan ese punto: el GPT-3.5 de propósito general de OpenAI y otro programa de IA llamado MedAlpaca, que está entrenado en textos médicos, tienen más probabilidades de producir respuestas incorrectas a consultas sobre atención médica en chino mandarín, hindi y español en comparación con el inglés.

En un mundo donde menos del 20% de la población habla inglés, estos nuevos hallazgos muestran la necesidad de una supervisión humana más estrecha de las respuestas generadas por la IA en múltiples idiomas, especialmente en el ámbito médico, donde entender mal una sola palabra puede ser mortal. Alrededor del 14 % de la población de la Tierra habla mandarín, y aproximadamente el 8 % habla español e hindi cada uno, lo que los convierte en los tres idiomas más hablados después del inglés.

"La mayoría de los pacientes en el mundo no hablan inglés, por lo que desarrollar modelos que puedan servirles debería ser una prioridad importante", afirma el oftalmólogo Arun Thirunavukarasu, especialista en salud digital del Hospital John Radcliffe y de la Universidad de Oxford, que no participó en el estudio. Se necesita más trabajos antes de que el rendimiento de estos modelos en idiomas distintos del inglés coincida con lo que prometen al mundo de habla inglesa.

En un nuevo estudio (pre-impreso), los investigadores del Instituto de Tecnología de Georgia hicieron a los dos chatbots más de 2000 preguntas similares a las que suele hacer el público sobre enfermedades, procedimientos médicos, medicamentos y otros temas de salud general. Las consultas del experimento, elegidos entre tres conjuntos de datos médicos en inglés, luego se tradujeron al chino mandarín, hindi y español.

Para cada idioma, el equipo verificó si los chatbots respondían las preguntas de manera correcta, integral y apropiada, cualidades que se esperarían de la respuesta de un experto humano. Los autores del estudio utilizaron una herramienta de inteligencia artificial (GPT-3.5) para comparar las respuestas generadas con las respuestas proporcionadas en los tres conjuntos de datos médicos. 

Finalmente, los evaluadores humanos verificaron dos veces una parte de esas evaluaciones para confirmar que el IA era preciso. Thirunavukarasu, sin embargo, dice que se pregunta hasta qué punto coinciden la inteligencia artificial y los evaluadores humanos; Después de todo, las personas pueden estar en desacuerdo sobre las críticas a la comprensión y otros rasgos subjetivos. Un estudio humano adicional de las respuestas generadas ayudaría a aclarar las conclusiones sobre la utilidad médica de los chatbots, añade..........

Leer el articulo completo

Articulo original (Ingles)

(*) Una vez que esta en la pagina del articulo, pulsando el botón derecho puede acceder a su  traducción al idioma español. Este blog de bioquímica-clínica está destinado a bioquímicos y médicos; la información que contiene es de actualización y queda a criterio y responsabilidad de los mencionados profesionales, el uso que le den a la misma. 
Nueva presentación el  30 de Abril. 
Cordiales saludos. 
Dr. Anibal E. Bagnarelli,
Bioquímico-Farmacéutico,UBA.
Ciudad de Buenos Aires, R. Argentina