Análisis de Kudo AI Speech Translator

Future

Foto de Choreograph

El Kudo AI Speech Translator es el primer software que ofrece una función de interpretación simultánea voice-to-voice basada en la IA para reuniones en espacios públicos o en eventos a través de cualquier dispositivo conectado a Internet. Kudo afirma ofrecer la posibilidad de interpretar desde 15 lenguas de origen a 30 lenguas de destino. El usuario puede escuchar el discurso interpretado a través de una voz robótica o bien leer los subtítulos traducidos que aparecen en la pantalla desde su dispositivo.

Tras nuestro análisis exhaustivo sobre esta herramienta presentada el 30 de enero por el CEO de Kudo en la feria ISE 2024 de Barcelona , nos queda claro que las herramientas de machine interpreting no pueden, ni remotamente, alcanzar la calidad de la interpretación humana. Cabe destacar que la autora de este artículo es intérprete de conferencias desde el año 2008, posee un máster en Interpretación de conferencias de la UAB, es miembro de la AICE , intérprete jurado por el MAEC y ha sido docente durante varios años de las universidades UAB y UPF de Barcelona.

Durante nuestra evaluación, detectamos un sinfín de errores como los que ilustramos a continuación:

  • El nivel de restitución, es decir, la cantidad de información transmitida desde el discurso original a la lengua de destino, según Kudo es de un 85%. Asimismo, afirman que la calidad de su herramienta fue valorada con un 4,2 sobre 5 por 4000 personas del público general, no por intérpretes de conferencias profesionales. Según nuestra evaluación, la calidad de traducción de esta herramienta se sitúa realmente entre un 40 y 50 %.
  • En numerosas ocasiones, el discurso robótico no transmitía realmente la idea del discurso original (a veces las frases estaban bien construidas y tenían sentido, pero en muchas otras ocasiones las frases no tenían ningún significado, las frases quedaban entrecortadas o bien aparecían palabras inventadas (como “unreal” en castellano, en vez de “irreal”). Obviamente esta herramienta es una máquina que no piensa ni se corrige. A veces, incluso, se incluyen auténticas tonterías como la palabra “disfraz”, cuando los ponentes hablaban de proyectos. 
  • La latencia del discurso es extremadamente larga. Es decir, el tiempo que transcurre desde que el ponente original pronuncia su frase hasta que se escucha traducida por la voz artificial es de unas 3 o 4 frases en la combinación inglés a castellano, y de unas 5 o 6 frases en la combinación inglés a alemán. Esto tiene como consecuencia que el público pierde una gran parte de la información transmitida través de reacciones como, por ejemplo, las risas de ponentes y parte del público tras un mensaje humorístico, sus expresiones faciales, el lenguaje corporal, etc.

  • Los nombres propios no se descodifican ni pronuncian correctamente: Por ejemplo, el nombre del grupo musical anglosajón “The Chemical Brothers” en inglés, se tradujo al castellano como «los hermanos químicos”, cosa que hace que el usuario sea incapaz de entender de qué se está hablando.

  • La herramienta no emplea las referencias anafóricas correctamente: Por ejemplo, en un fragmento de la transcripción aparecía “los”, cuando la frase anterior mencionaba una actuación, es decir, un sustantivo femenino singular, por lo que el pronombre debería haber sido “la”. Esto, de nuevo, despista totalmente a quien escucha.

  • El discurso oralizado no tiene un ritmo homogéneo. Escuchamos microcortes de la conexión en varias ocasiones, que parecen causar un buffer o acumulación de datos que llegan con un retraso de unos segundos y a una velocidad superior al original (cuando el discurso original se había pronunciado a un ritmo normal). Este hecho incomoda a quien lo escucha, francamente.

  • La inconsistencia del vocabulario ocurre a menudo. Ciertamente, a veces se emplean los sustantivos correctos, pero en otras ocasiones parece que el vocabulario empleado sea totalmente aleatorio. Por ejemplo, los ponentes hablaban del edificio londinense del Millenium Dome, se en castellano convierte en “la cúpula S”, “la cúpula celular” o bien la “cúpula de nuestra celda”. Obviamente, quien escucha es incapaz de adivinar de qué se está hablando. 
  • El registro empleado es inconsistente. Se detectaron variaciones constantes entre el uso del “tú”, “vosotros” y “usted”. Además, la herramienta pasa de un registro estándar a otro más coloquial sin motivo alguno.
  • Timbre de la voz artificial, es incómodo y difícil habituarse a escuchar una voz robótica, repetitiva, sin los matices, pausas ni dicción de una voz humana. Además, en un diálogo a dos por ejemplo, el usuario no puede discernir cuándo habla una persona o la otra, no solo porque la voz es la misma en ambos casos, sino porque el software no entona correctamente, por lo que quien lo escucha no sabe si se trata de una pregunta o de una respuesta.

Dentro de esta nueva era de la IA, nos queda claro que el Kudo AI Speech Translator, igual que otras iniciativas como SeamlessM4T  de Meta (aún en fase de desarrollo) están ávidos de copar nuevas cuotas de mercado gracias a grandes campañas publicitarias. Ahora bien, no es oro todo lo que reluce. Algunas voces expertas afirman que la IA podría acabar siendo una burbuja más, como las .com o las criptomonedas, que acabará por explosionar. Esta multitud de aplicaciones que surgen constantemente ofrecen un nivel de calidad que deja mucho que desear . Quizá sean utilizadas en espacios públicos como aeropuertos, estaciones de tren, hoteles, etc. donde se requiera de situaciones comunicativas sencillas.

Después de tanta marea tecnológica, los usuarios acabarán volviendo al back to basics, con servicios realizados por intérpretes humanos, que les aporten confianza, cercanía y…humanidad. Los intérpretes de conferencias somos lingüistas expertos, con numerosos años de formación, que nos preparamos a conciencia para cada nuevo congreso, con capacidad de pensamiento y de adaptación ante cualquier situación comunicativa, ante barreras culturales, etc. En reuniones de alto nivel y entornos en los que se comparte información sensible o confidencial, es evidente que el contacto y la calidad de la comunicación entre humanos es y seguirá siendo insustituible.

Es innegable que la IA va a seguir evolucionando. Sin embargo, aún no se ha creado ninguna herramienta que logre comunicarse como las personas porque, evidentemente, la comunicación humana es tan compleja, que no existe algoritmo alguno que la haya podido imitar a la perfección. No olvidemos, además, que tras esta evolución tecnológica tan acelerada existe un componente ético fundamental  sobre el que debemos reflexionar. Y es que nunca deberíamos dejar en manos de una máquina la capacidad de comunicación entre las personas, porque si hay algo que nos hace humanos es, precisamente, nuestra capacidad de diálogo.