Analyse du Kudo AI Speech Translator

Future

Photo par Choreograph

Le Kudo AI Speech Translator est le premier software offrant une fonction d’interprétation simultanée en voice-to-voice basée sur l’IA pour les réunions dans les espaces publics ou dans les événements à travers n’importe quel dispositif connecté à Internet. Kudo déclare offrir la possibilité d’interpréter de 15 langues sources vers 30 langues cibles. L’utilisateur peut écouter le discours interprété à travers une voix robotisée ou bien lire les sous-titres traduits qui apparaissent sur l’écran depuis son dispositif.

Suite à notre analyse exhaustive sur cet outil présenté le 30 janvier par le PDG de Kudo lors de la foire ISE 2024 de Barcelone , il est évident que ces outils de machine interpreting ne peuvent, en aucun cas, atteindre la qualité de l’interprétation humaine. Il est important de souligner que l’auteure de cet article est interprète de conférences depuis l’année 2008, possédant un Master en Interprétation de conférences de la UAB, étant membre de l’AICE , interprète certifiée par le MAEC et a été professeure durant plusieurs années aux universités UAB et UPF de Barcelone.

Lors de notre évaluation, nous avons repéré une multitude d’erreurs comme celles que nous allons présenter ci-dessous:

  • Le niveau de restitution, c’est-à-dire de la quantité d’information transmise depuis le discours original à la langue cible, est de 85% selon Kudo. Ainsi, ils affirment que la qualité de leur outil a été notée à 4,2 sur 5 par 4000 personnes du public général, et non pas par des interprètes de conférences professionnels. D’après notre évaluation, la qualité de traduction de cet outil se situe en réalité entre 40 et 50 %.
  • Dans de nombreuses occasions, le discours robotique ne transmettait pas véritablement l’idée du discours original (les phrases étaient parfois bien rédigées et avaient du sens, mais dans de nombreuses autres occasions, les phrases n’avaient aucune signification, les phrases étaient entrecoupées ou bien des mots inventés faisaient leur apparition (comme « unreal » en espagnol, au lieu de « irreal »). Évidemment cet outil est une machine qui ne réfléchit pas et qui ne se corrige pas. Parfois, même de des graves erreurs sont incluses, comme le mot « costume », lorsque les intervenants parlent de projets.
  • La latence du discours est extrêmement longue. Autrement dit, le temps qui s’écoule entre le moment où le locuteur original prononce sa phrase et celui où l’on entend la phrase traduite par la voix artificielle est d’environ 3 ou 4 phrases dans la combinaison anglais-espagnol, et d’environ 5 ou 6 phrases dans la combinaison anglais-allemand. Cela a pour conséquence que le public perd une grande partie de l’information transmise à travers des réactions, comme par exemple les rires des locuteurs et d’une partie du public après un message humoristique, leurs expressions faciales, leur langage corporel, etc.

  • Les noms propres ne sont ni décodés ni prononcés correctement : par exemple, le nom du groupe musical anglo-saxon « The Chemical Brothers » en anglais a été traduit en espagnol par « los hermanos químicos » (les frères chimiques), ce qui fait que l’utilisateur est incapable de comprendre de quoi il s’agit.

  • L’outil n’emploie pas les références anaphoriques correctement: Par exemple, « los » apparaissait dans un fragment de la transcription, lorsque la phrase précédente évoquait une performance, c’est-à-dire un substantif singulier féminin, pour lequel le pronom aurait dû être « la ». Encore une fois, cela confond totalement la personne qui écoute.

  • Le discours oral n’a pas un rythme homogène. Nous avons entendu à plusieurs reprises des micro-coupures de connexion, qui semblaient provoquer une mise en mémoire tampon ou une accumulation de données arrivant avec un retard de quelques secondes et à une vitesse supérieure à l’original (lorsque le discours original avait été prononcé à un rythme normal). Cela met réellement mal à l’aise l’auditeur.

  • L’inconsistance du vocabulaire se produit souvent. Certainement, parfois les substantifs corrects étaient employés, mais dans d’autres occasions il semblerait que le vocabulaire employé était totalement aléatoire. Par exemple, les intervenants parlaient du bâtiment londonien du Millenium Dome, en espagnol cela devenait « la cúpula S », « la cúpula celular » ou bien la « cúpula de nuestra celda ». Évidemment, la personne qui écoute est incapable de deviner de quoi il s’agit.
  • Le registre employé est inconsistant. Des variations constantes entre l’usage du « tu », du « vous » et du « vous » (de politesse) ont été repérées. De plus, l’outil passe d’un registre courant à un registre plus familier sans raison.
  • Le timbre de la voix artificielle, est inconfortable et il est difficile de s’habituer à écouter une voix robotique, répétitive, sans les nuances, les pauses ou la diction d’une voix humaine. De plus, dans un dialogue bidirectionnel par exemple, l’utilisateur ne peut pas discerner quand l’une ou l’autre personne parle, non seulement parce que la voix est la même dans les deux cas, mais également parce que le software ne transmet pas correctement l’intonation, ce qui fait que l’auditeur ne sait pas s’il s’agit d’une question ou d’une réponse.

Dans cette nouvelle ère de l’IA, il nous est clair que le Kudo AI Speech Translator, tout comme d’autres initiatives tel que SeamlessM4T de Meta (encore en phase de développement) sont désireux de conquérir de nouvelles parts de marché grâce à de grandes campagnes publicitaires. Or, tout ce qui brille n’est pas de l’or. Certains experts affirment que l’IA pourrait finir par être une bulle supplémentaire, comme les .com ou les crypto-monnaies, qui finira par éclater. Cette multitude d’applications qui apparaissent constamment offrent un niveau de qualité qui laisse beaucoup à désirer . Peut-être qu’elles seront utilisées dans des espaces publics comme les aéroports, les stations de trains, les hôtels, etc. dans lesquels des situations communicatives simples seront nécessaires.

Après tant de marée technologique, les utilisateurs finiront par revenir au back to basics, avec des services réalisés par des interprètes humains, qui leur inspirent confiance, proximité et…humanité. En tant qu’interprètes de conférences, nous sommes des experts en linguistiques, avec de nombreuses années de formation, nous préparons minutieusement chaque nouveau congrès, avec la capacité de réfléchir et de s’adapter à toute situation de communication, de barrières culturelles, etc. Dans les réunions de haut niveau et dans les environnements où des informations sensibles ou confidentielles sont communiquées, il est évident que le contact et la qualité de la communication entre humains sont et continueront d’être irremplaçables.

Il est évident que l’IA va continuer à se développer. Cependant, aucun outil qui puisse communiquer comme les personnes n’a encore été créé car, évidemment, la communication humaine est si complexe, qu’il n’existe aucun algorithme qui ait pu l’imiter à la perfection. De plus, n’oublions pas que derrière cette évolution technologique si accélérée existe une composante éthique fondamentale sur laquelle nous devons réfléchir. C’est que nous devrions jamais laisser entre les mains d’une machine la capacité de communication entre les personnes, car s’il y a bien quelque chose qui nous caractérise en tant qu’humains, c’est la capacité de dialogue.