Meta lanza un traductor de voz simultáneo con IA de hasta 101 idiomas

Meta, la compañía de Mark Zuckerberg, ha creado un modelo avanzado de Inteligencia Artificial capaz de traducir instantáneamente comunicaciones de texto a voz o de voz a voz hasta en un centenar de idiomas, con el mismo tono y voz de los interlocutores. La revista Nature publica este gran avance, del que se han hecho eco los medios de comunicación nacionales e internacionales. Este logro puede suponer la desaparición de las barreras idiomáticas.

Este modelo de traducción automática multimodal, llamado SEAMLESSM4T, admite la traducción de voz a texto en 101 idiomas de origen y hasta en 36 idiomas de destino. Además, la traducción de texto a voz reconoce 96 idiomas y es capaz de traducirlos en 36. La cantidad de dominio de texto varía, ya que puede ir desde 33 millones o 55 millones de oraciones para idiomas con recursos limitados, como el maltés o el suajili, respectivamente, hasta 22.000 millones de oraciones en inglés.

Avances

Según la propia compañía, traduce “con entre un 8% y un 23% más de precisión que los sistemas existentes”. Además, puede filtrar el ruido de fondo entre un 42% y un 66% más. Esto supone un avance de todos los sistemas de traducción más fiables y del traductor simultáneo que ya publicó en agosto de 2023 la empresa de Zuckerberg.

Una de las limitaciones que intenta rebasar el nuevo modelo es la escasez de idiomas operativos. Es cierto que más del 50% del mundo habla principalmente media docena de idiomas, la diversidad es tan amplia que quedan fuera del servicio los más de 7.000 existentes en el mundo Por lo cual, uno de los avances más importantes del modelo es su enfoque en incorporar idiomas como el maltés y el suajili, que siempre han sido excluidos de los avances tecnológicos en la traducción automática.

Normalmente, los sistemas de traducción automática suelen funcionar bien en idiomas que están bien representados en internet, como el español, chino o inglés, pero no tanto para idiomas con menos hablantes (como suajili, urdu o maltés).

Críticas

Sin embargo, este modelo también se enfrenta a críticas por sus limitaciones. Principalmente, esta aplicación no tiene en cuenta componentes del habla viva ni ninguna inflexión vocal que pueden dejar de forma no del todo precisa la traducción final y producir confusiones.

Otros desafíos son la expresividad de la voz traducida, los sesgos de género y la interacción en tiempo real. Además, el traductor está cerrado a principios de ciencia abierta y los especialistas se lamentan que el modelo solo se puede utilizar a través de la API (Application Programming Interface), que es un remoto por internet impuesto por Meta.