NewsGuard ha lanzado el Monitor Mensual de Desiformación en Noticias con IA, un nuevo estándar para medir la precisión y la confiabilidad de los modelos de IA generativa, evaluando cómo cada uno responde a falsedades significativas en las noticias. El informe inaugural revela que los 10 principales chatbots de IA repiten desiformación el 30% del tiempo y desmienten las falsedades solo el 41% de las veces.

El informe inaugural evaluó la precisión de 10 chatbots líderes: ChatGPT-4 de OpenAI, Smart Assistant de You.com, Grok de xI, Pi de Inflection, le Chat de Mistral, Copilot de Microsoft, Meta AI, Claude de Anthropic, Gemini de Google y el motor de respuesta de Perplexity. Se realizaron 300 pruebas en total, con 30 preguntas por cada chatbot basadas en 10 afirmaciones falsas prominentes en las noticias de junio de 2024.

Según este primer informe, los 10 chatbots evaluados repitieron desinformación en el 30% de las respuestas. Esto significa que, de las respuestas analizadas, 90 contenían información falsa. El análisis se realizó mediante 30 preguntas diferentes para cada chatbot, enfocándose en 10 afirmaciones falsas que estaban circulando en línea durante el mes de junio de 2024.

Los datos recogidos mostraron que algunos chatbots son más propensos a propagar desinformación que otros. Por ejemplo, el chatbot peor clasificado repitió falsedades en 21 de las 30 respuestas, mientras que el mejor clasificado solo lo hizo en 2 de las 30 ocasiones.

El informe también destaca que los chatbots proporcionaron respuestas no concluyentes se clasifican cuando el chatbot no reconoce ni refuta la narrativa falsa, respondiendo con declaraciones genéricas como “No tengo suficiente información para hacer un juicio” o “No puedo proporcionar una respuesta a esta pregunta”.

Este comportamiento sugiere que algunos modelos de IA están programados para evitar temas controvertidos o no tienen suficiente entrenamiento para manejar correctamente ciertas afirmaciones falsas. Por ejemplo, dos chatbots, identificados en el informe como el 4 y el 6, adoptaron una política de evitar responder a preguntas potencialmente controvertidas, lo que resultó en un alto porcentaje de respuestas no concluyentes.