22.11.2023 | La News/Media Alliance ha presentado un Libro Blanco acompañado de un análisis técnico y comentarios, donde se pone de manifiesto la utilización sin autorización de contenido editorial por parte de desarrolladores de tecnologías de inteligencia artificial generativa (IAG).

De hecho, el estudio concluye que, por ejemplo, en el caso de Google, las noticias que elaboran los medios son la tercera fuente en importancia de la que se nutren para sus LLM (Large Language Model o Modelo de Lenguaje de Gran Envergadura en español), que requiere ser entrenado con enormes conjuntos de datos textuales para aprender patrones de lenguaje, gramática, y contexto o conocimiento del mundo.

Los informes detallan la repercusión que tal uso indebido puede tener sobre la sostenibilidad y la disponibilidad de contenido original de calidad, así como sus implicaciones legales.

La Alliance enfatiza que este avance no debe realizarse a costa de los editores y periodistas que dedican esfuerzos notables para generar material que informa, protege y entretiene a la comunidad, a la vez que supervisa la actuación de los funcionarios públicos y otros agentes decisores.

La Alliance y sus afiliados se muestran dispuestos a colaborar con los desarrolladores de IAG para promover el crecimiento de estas tecnologías de manera responsable y sostenible.

De forma complementaria, el análisis técnico expone en qué medida los desarrolladores de IAG dependen del contenido periodístico de calidad para potenciar sus modelos. Entre los hallazgos del informe, se destaca:

  • La apropiación y uso por parte de los desarrolladores de IAG de contenidos de noticias, revistas y medios digitales para adiestrar modelos de lenguaje de gran envergadura (LLM).
  • La prevalencia significativa de contenido editorial en los conjuntos de datos curados que sustentan los LLM, superando por un factor de más de 5 a casi 100 la representación de dicho contenido frente a colecciones genéricas de la web recopiladas por Common Crawl.
  • Otros estudios indican que las noticias y medios digitales figuran como la tercera fuente más utilizada en el conjunto de entrenamiento C4 de Google, empleado para desarrollar productos basados en IAG de Google como Bard. La mitad de los diez principales sitios representados en dicho conjunto son medios de comunicación.
  • Los LLM replican y utilizan contenido editorial en sus respuestas, pudiendo regenerar el contenido con el que fueron entrenados, lo cual demuestra la capacidad de estos modelos para retener y memorizar el contenido expresivo de las obras utilizadas en su entrenamiento.

Danielle Coffey, presidenta y CEO de la Alliance, expuso: «La disminución de contenidos de alta calidad generados por humanos no solo daña a los editores, sino que amenaza la viabilidad de los propios modelos de IAG y la disponibilidad de información fiable y digna de confianza”.

La Alliance urge a una acción regulatoria que salvaguarde los intereses de los creadores de contenido original y que promueva una colaboración equitativa entre los editores y las empresas tecnológicas en el campo emergente de la IAG.