El test de Turing aplicado al campo de la toxicología clínica. ¿Se pueden diferenciar los textos elaborados sobre esta materia por sistemas de inteligencia artificial de los creados por toxicólogos clínicos?
Resumen
Objetivo: Formular preguntas de toxicología a cuatro sistemas de inteligencia artificial (IA) y a cuatro toxicólogos clínicos (TC) y constatar si un grupo de observadores es capaz de identificar el origen de las respuestas. Valorar la calidad del texto y el nivel de conocimientos ofrecidos por estas IA y compararlos con el de los TC.
Método: Se prepararon 10 preguntas de toxicología y se introdujeron en cuatro sistemas de IA (Copilot, Bard, LuzIA y ChatGPT). Se solicitó a cuatro TC que respondiesen a las mismas preguntas. Se consiguieron 24 observadores expertos en toxicología y se les remitió un cuestionario con 10 preguntas y cada una de ellas con una respuesta procedente de una IA y otra de un TC. Cada observador tenía que decidir la procedencia de las respuestas, valorar la calidad del texto y cuantificar el nivel de conocimientos sobre el tema.
Los resultados de las variables cuantitativas se describen como media (desviación estándar) y las cualitativas como frecuencia absoluta (%). Se consideró significativo un valor de p <0,05.
Resultados: De las 240 respuestas que analizaron los observadores y que procedían de alguna IA, en 21 (8,8%) ocasiones opinaron que con certeza provenían de un TC, en 38 (15,8%) que procedían probablemente de un TC y en 13 (5,4%) reconocían que no podían establecer el origen de la respuesta. LuzIA y ChatGPT mostraron una mayor capacidad de engaño a los observadores, con diferencias significativas respecto a Bard (p=0,036 y p=0,041, respectivamente).
Con relación a la calidad de los textos de las respuestas ofrecidas por las IA, la valoración de los observadores fue de excelente en el 38,8% de las ocasiones, con una diferencia significativa en favor de ChatGPT (61,3% de respuestas excelentes) respecto a Bard (34,4%, p<0,001), LuzIA (31,7%, p<0,001) y Copilot (26,3%, p<0,001).
Respecto a la percepción de conocimientos sobre el tema por parte de las IAs, la puntuación media de fue de 7,23 (1,57) sobre 10, obteniendo ChatGPT una puntuación de 8,03 (1,26) que fue mayor a la obtenida por Luzia (7,02 [1,63], p<0,001), Bard (6,91 [1,64], p<0,001) y Copilot (6,91 [1,46], p<0,001).
Conclusiones: LuzIA y ChatGPT son sistemas capaces de generar respuestas a preguntas de toxicología que, con frecuencia, parecen haber sido respondidas por un toxicólogo clínico. La calidad de los textos generados y la percepción de conocimientos que ofrece ChatGPT es muy elevada.
Palabras Clave
Inteligencia artificial. Toxicología clínica. Test de Turing. Conocimiento.