Alors que la reconnaissance faciale est déjà une réalité entrée dans les mœurs de tout utilisateur du web, un autre pas vient d’être franchi en matière d'intelligence artificielle. Des chercheurs de l’université Stanford et de Google sont parvenus chacun de leur côté à mettre au point un logiciel capable de détecter le contenu d’une photo de manière automatique.
« Nous avons développé un système de machine learning qui peut automatiquement produire une légende pour décrire avec précision les images la première fois qu’il les voit », lisait-on sur le blog de Google Research ce 17 Novembre.
« Une image vaut mille mots » …
C’est de cette manière que le géant Google introduisait dans son article, l’objet de ses dernières recherches… Il est en effet très facile pour le commun des mortels de décrire et résumer une image complexe posée devant ses yeux et en quelques mots, le tout sans avoir à trop réfléchir. C’est une tout autre histoire pour les ordinateurs et surtout pour les robots.
Pourtant, il est désormais possible de créer des descriptions textuelles des images trouvées sur le web, grâce à un nouvel algorithme. Cet algorithme est basé sur des systèmes d'apprentissage automatique (machine-learning) et issus du monde de la traduction automatique et des Recurrent Neural Network (RNN) / Convolutional Neural Network (CNN).
Ce système d’apprentissage automatique pourra générer automatiquement des légendes et décrire des images avec précision. Tu n'as rien compris ? Pas de panique, je vais tout expliquer, avec des mots plus simples …
Donc, pour parvenir à cette prouesse, Google a utilisé un type de réseau neuronal dit convolutionnel, très répandu et efficace pour la reconnaissance d’image, conçu pour classifier les objets présents dans les images. Une fois ces objets "retranscrits" sous la forme de contenu textuel, la liste des éléments contenus dans l'image est soumise à un autre "réseau neuronal" qui va construire une phrase dans un langage naturel : l'anglais. Les différents composants de l’image sont donc identifiés et associés à des mots, c'est ensuite à l’outil de reconstruire des phrases cohérentes par rapport aux images.
Pour ceux du fond qui ne suivent pas, prenons un exemple concret. Cette photo d’éléphants par exemple …
Jusqu'à présent, on savait qu'un ordinateur pouvait identifier un objet individuellement sur une image et associer le mot "éléphant" sur la photo d'un pachyderme. Tu vas me dire, c’était déjà ça, mais chez Google, c’est bien connu, les chercheurs en veulent toujours « plus ». Et on y est les amis ! Des chercheurs du célèbre moteur de recherche et de l'université américaine de Stanford ont mis au point un logiciel capable non seulement d'analyser les photos, mais aussi de les décrire avec des phrases complexes.
Pour l’image ci-dessus, ce logiciel nous fournit donc la description suivante : "Un troupeau d'éléphants marche dans un champ d'herbes sèches."
Techniquement, cette description a été générée grâce à la combinaison de la reconnaissance visuelle et d'un système de transcription inspiré des progrès récents en matière de traduction automatique sauf qu'il ne s'agit pas d’une traduction d’une langue vers une autre, mais bien de traduire des "éléments image" vers du texte.
Pour ceux qui n’auraient toujours pas très bien compris, vous trouverez ci-dessous d’autres exemples d’images traitées par ce logiciel doté d’une étonnante intelligence artificielle. Les exemples présentés sont plutôt bluffants et on imagine à peine le nombre d'applications possibles pour ces algorithmes dans le futur.
Les enjeux de la reconnaissance d’images en terme de SEO
Pour l'instant, la firme de Mountain View ne délivre pas encore dans son article, la manière dont elle pense utiliser ces logiciels à l'avenir (ils ne sont d’ailleurs pas encore opérationnels) mais un moteur comme Google Images pourrait, bien sûr, y gagner énormément en pertinence. Si les descriptions sont exactes, bien entendu.
Il nous reste quand même une question cruciale à élucider : Quel sont les enjeux en terme de SEO ? Selon le géant américain, ce système de scannage global aura plusieurs utilités :
- Faciliter la recherche et le référencement sur Google Images
- Améliorer les conditions de navigation des internautes malvoyants,
- Offrir des alternatives aux connexions à très faible débit (en remplaçant les photos trop lourdes par du texte optimisés pour le SEO).
- Google pourra aiguiser la classification et l’archivage de ses images. L’internaute pourra par exemple rechercher l’intégralité des photos référencées comportant un chapeau, un éléphant et/ou un stylo.
“I consider the pixel data in images and video to be the dark matter of the Internet,” said Fei-Fei Li, director of the Stanford Artificial Intelligence Laboratory, who led the research with Andrej Karpathy, a graduate student. “We are now starting to illuminate it.”
Fei-Fei Li, directrice du laboratoire de Stanford, consacré à l'intelligence artificielle, confiait au New York Times : « j’assimile les pixels d’une image ou d’une vidéo à la matière noire d’Internet », « Nous allons maintenant commencer à l’éclairer ».
Une bien belle manière de dire que les images postées sur la toile et dont les métadonnées sont le plus souvent mal renseignées voire même inexistantes, restent malheureusement complètement invisibles aux yeux des moteurs de recherche. Cette situation évoluera si Google lâche ses « robots-identifieurs » sur la toile, et puisse s’offrir la possibilité de décrire et classer toutes les photos qui passeront dans son viseur.
Un algorithme encore faillible mais perfectible … par l'homme !
Pourtant ils ne sont pas (encore) infaillibles, en effet, Google a réparti les exemples ci-dessous en plusieurs catégories :
- La première catégorie dont la description est juste et optimisée.
- La deuxième contient des erreurs d’interprétations minimes.
- Une troisième catégorie dont la description est incorrecte mais reste pourtant dans un contexte similaire.
- La dernière catégorie nous démontre qu’il existe des erreurs de lecture des images.
Source de l'image : Google
D'ailleurs, observons ces loupés de plus près …
Source de l'image : Google
Description du logiciel pour cette : "Deux joueurs de hockey se disputent le palet"
Cette description est classée parmi celles qui contiennent des "erreurs mineures" par Google ; en l'occurrence, on suppose que les chercheurs attribuent ce manque de justesse à l'absence du palet dans le cadrage de la photo. L'évocation de l'objet n'en demeure pas moins étonnamment pertinente puisqu’elle entre dans le domaine de l’implicite de cette photo.
Source de l'image : Google
Description du logiciel : "Un homme vole dans les airs en faisant du snowboard"
Ok Google ! là pour le coup, c'est loupé ! Preuve que les robots ont encore un peu de travail avant de commencer à réellement concurrencer les humains. Par contre, il serait envisageable de mettre en place une procédure de correction par les internautes en cas d'erreur ? L'homme au service de la machine ? Qu’en pensez-vous Monsieur Google ?
Faciliter la navigation… et la surveillance ?
Cette problématique laisse également envisager des "possibilités glaçantes en termes de surveillance", note le New York Times. Selon certains, plus pessimistes, ces avancées pourraient également contribuer à l’optimisation des solutions de reconnaissance faciale sous le couvert de la sécurité. En 2012, on rapportait qu’une équipe japonaise avait réussi à mettre au point un logiciel capable d’identifier en une seconde un visage sur 36 millions de références dans une base de données. Le New York Times estime aujourd’hui que dans quelques années, il sera possible non seulement d’identifier des visages, mais également « certains types de comportements, et peut-être même alerter automatiquement les autorités en cas de déviance. »
Réalité ou Science-fiction ? La "reconnaissance des images" par Google n'en est encore qu'au stade de recherche mais c’est grâce à une telle solution qu’on peut envisager un sérieux coup de pouce aux personnes souffrant de déficience visuelle pour qui l’ampleur du web ne reste encore qu’un labyrinthe difficile d’accès.