L'info ne vous a sans doute pas échappé : Google ferme son API Translate. Quelles sont les implications ?

 

En cherchant de l'info sur le sujet je n'ai trouvé que des articles anglophones aussi je vous livre ici en français quelques éléments clés trouvés sur le Net.

Que fait l'API Google Translate ?

Ce système permet à des développeurs de sites web d'utiliser l'algorithme de Google pour produire et publier de larges volumes de textes traduits. C'est à ne pas confondre avec le site Google Translate, dans lequel on insère un bloc de texte qu'on souhaite traduire, ni avec le bouton / widget Google Translate qui permet de traduire des pages web à la volée. Ces deux services continueront de fonctionner sans problème.

Quelles sont les raisons avancées par Google pour la fermeture de cette API ?

L'annonce que l'on trouve sur la page web décrivant l'API dit ceci :

Important: The Google Translate API has been officially deprecated as of May 26, 2011. Due to the substantial economic burden caused by extensive abuse, the number of requests you may make per day will be limited and the API will be shut off completely on December 1, 2011. For website translations, we encourage you to use the Google Translate Element.

Google parle donc "de pression économique" et "d'utilisation abusive". Explication : de nombreux développeurs n'ont pas respecté les conditions d'utilisation de cette API, en faisant un usage commercial des données traduites, ou en les incorporant directement dans des sites web de manière massive. 

Que ne nous dit pas Google en fermant cette API ?

Voici dans les grands lignes l'analyse qui a été faite par plusieurs spécialistes et qui tombe sous le sens quand on y réfléchit quelques minutes.

Google Translate est un outil de traduction automatique qui fonctionne sur la base d'occurrences statistiques : plus il peut comparer de textes (à la manière d'une pierre de Rosette), plus le système s'améliore. L'outil ne "comprend" pas du tout les languages traités, il fait juste du calcul. Son succès repose donc sur une vaste quantité de données accessibles et de qualité.

Mais que se passe-t-il quand les données en question sont des données traduites via l'API Google Translate ? Le système se court-circuite :

  • au mieux les morceaux de texte trouvés seront du même niveau que ce que produirait l'outil à l'instant où il l'analyse (ce qui ne l'aidera pas à s'améliorer),
  • au pire ce seront des traductions datées et donc de moindre qualité que ce produirait Google Translate à cet l'instant T, ce qui signifie que les incorporer va amoindrir la qualité du système. Car statistiquement, un texte de mauvaise qualité a la même importance qu'un texte de bonne qualité, Google n'étant pas capable de "comprendre" les textes.

Le "mode d'apprentissage" du système Google Translate est donc pollué par ses propres résultats ! 

L'ejeu était trop important pour Google qui a besoin de maintenir des données de qualité pour ensuite faire tourner son entreprise et satisfaire ses clients (non pas les internautes comme vous et moi mais les annonceurs qui achètent de la publicité en fonction du contexte). Pour que les revenus continuent de rentrer, il faut que Google fournisse des résultats de recherche de qualité, ce qui n'est possible que si les contenus à disposition sur le web sont de qualité, notamment dans les langues autres que l'anglais où son leadership est moins assuré. CQFD !

 

Sources : An 'Economic Burden' Google Can No Longer Bear? et Analysis of the Shutdown Announcements of the Google Translate API