Emmanuel RAMBEAU, Data Scientist
Killian DECTOT, Data Scientist

Plusieurs milliards de photos sont publiées chaque jour sur Internet. Cette quantité inédite d'informations, conjuguée aux progrès exceptionnels du Deep Learning, a permis à la reconnaissance d'images (ou computer vision) de connaître un développement spectaculaire. Décryptage d'un phénomène dont on peine encore à mesurer l'ampleur.

[Attachment]

LE DEEP LEARNING & LES RAISONS D'UN BOND TECHNOLOGIQUE

Le Deep Learning est une application du Machine Learning, un champ d'étude de l'Intelligence Artificielle. Le principe ? Les algorithmes apprennent automatiquement à reconnaître et classer des images. Pour y parvenir, le Deep Learning s'inspire de la structure du cerveau humain : les calculs mathématiques imitent les différentes couches de neurones. Tout le challenge de la computer vision consiste à trouver la meilleure structure de réseau de neurones possible. Cette opération passe par un jeu de paramètres, recalculé à chaque itération. Encore impossible il y a quelques années, la réalisation de ces calculs matriciels entre chaque couche reste une opération lourde et coûteuse.

Plus le calcul est profond, plus les prédictions sont fines. Autrement dit, plus on dispose d'informations, plus les réseaux de neurones seront performants. C'est pourquoi la masse de données désormais disponible est déterminante dans le développement de la reconnaissance d'images. C'est aussi la raison pour laquelle les GAFA (Google, Apple, Facebook, Amazon), principaux détenteurs de ces données, sont les leaders de ce marché.

Les GAFA ont donc fait le choix de mettre en libre accès plusieurs outils consacrés aux réseaux de neurones (Keras et TP de Google par exemple), accélérant ainsi l'accès à la technologie. De même, cette dynamique est nourrie par la mise à disposition de modèles opérationnels (transfer learning) par des instituts de recherche et le développement de MOOC dédiés (Coursera, Udacity). Autre élément déterminant : la plate-forme ImageNet et ses 14 millions d'images stabilisées, véritable matière première de la reconnaissance visuelle.

LES ARCHITECTURES DES RÉSEAUX DE NEURONES

La théorie à l'origine des réseaux de neurones a vu le jour dès les années 1950. Mais il a fallu attendre plus d'un demi-siècle pour disposer d'une puissance de calcul et d'une quantité de données suffisante pour sa mise en pratique. La méthode d'apprentissage connaît aujourd'hui plusieurs types d'applications. Fondée sur une architecture de réseau de neurones dite recurrent neural networks, le NLP (Natural Language Processing) est à l'origine du fonctionnement des chatbots et des logiciels de traduction. La reconnaissance d'images mobilise un autre type d'architecture : les réseaux de neurones à convolution.

DE NOMBREUSES APPLICATIONS AU POTENTIEL ENCORE INDÉFINI

Rares sont les secteurs dans lesquels la reconnaissance visuelle n'ouvre pas d'immenses perspectives. En cours de développement ou déjà en usage, voici quelques exemples donnant un aperçu de la révolution en cours.

  • Santé
    Une application décryptant les informations nutritionnelles d'un repas sur la base d'une photo de son assiette a été officiellement lancée début 2018. De même, encore en développement à ce jour, une application est capable d'évaluer la dangerosité des taches sur la peau après l'analyse d'une photo.
  • Agriculture
    Grâce à une caméra qui observe la pousse de légumes et l'arrosage, un algorithme est capable de reconnaître les cycles de floraison. De même, la reconnaissance d'images peut servir à détecter la présence d'insectes dans un champ, de manière à pulvériser la quantité adéquate d'insecticide au bon moment et au bon endroit.
  • Industrie
    En installant une caméra avec reconnaissance d'images sur une chaîne de montage, les industriels détectent rapidement les produits défectueux, ce qui engendre une réduction drastique du temps d'intervention des opérateurs et un gain de productivité sensible.

PROBLÉMATIQUES ÉTHIQUES SOULEVÉES

  • Vidéosurveillance en Chine
    La Chine compte aujourd'hui 170 millions de caméras de vidéosurveillance dotées de la technologie de reconnaissance visuelle. D'ici 2020, le gouvernement a prévu d'en installer 400 millions de plus dans le cadre du programme Skynet destiné à couvrir l'ensemble du territoire. Un test a été réalisé en décembre 2017 par un journaliste de la BBC qui avait confié sa photo aux autorités : 7 minutes à peine ont été nécessaires pour le retrouver. Au-delà de la dimension sécuritaire, Skynet entend fonder une notation citoyenne de la population. En fonction de son comportement au quotidien, une personne pourrait se voir empêcher d'obtenir un prêt, de souscrire à une assurance ou encore de voyager à l'étranger.
  • Voiture autonome
    La voiture autonome est déjà une réalité. En France, une navette a été testée à Issy-les-Moulineaux en mars 2017 : 600 kilomètres ont été parcourus sans incident. Concrètement, des caméras enregistrent tout ce qu'il se passe autour de la voiture, alors qu'un algorithme prend, en temps réel, des décisions sur la manière d'agir. La technologie pose une question éthique fondamentale : en cas d'accident inévitable, qui la voiture choisira-t-elle d'épargner ? Un enfant ou une personne âgée ? Le Massachusetts Institute of Technology (MIT) a lancé en 2016 un questionnaire mondial afin d'évaluer les choix éthiques de la population. Les millions de réponses reçues ont mis en lumière des différences notables, notamment régionales. Il ne reste plus qu'à déterminer les critères à appliquer.
  • L'impact sur le travail humain
    Les technologies de reconnaissance visuelle sont capables d'assimiler le contenu textuel de documents photographiés, et cette aptitude pourrait fortement impacter l'emploi. La clef sera probablement d'envisager ces solutions technologiques non en opposition, mais en complément du travail humain. C'est ce qu'a prouvé une étude d'Harvard dans le secteur de la santé. Elle établit que le Deep Learning seul analyse efficacement les IRM dans 92 % des cas. De leur côté, les médecins atteignent un taux de 96 %. Mais aidés par l'IA, leur taux dépasse les 99,5%...

[Attachment]

Emmanuel RAMBEAU
Depuis 7 ans, Emmanuel exerce dans le domaine du décisionnel au sein de différents environnements. Certifié en Machine Learning & Deep Learning, il travaille au sein de Keyrus et affine ses connaissances à travers la diversité et la richesse de ses missions. Aujourd'hui, il transmet son savoir et aide les différentes équipes dans lesquelles il est impliqué chez ses clients à approfondir leurs fondements dans ces domaines.

Killian DECTOT
Dans le cadre de sa dernière année d'école d'ingénieur en Mathématiques Appliquées et Modélisation à Polytech Lyon, Killian est actuellement consultant Data Scientist en alternance chez Keyrus.
Au sein de la practice Data Science & IA, il étudie les différentes problématiques liées au Deep Learning dans le domaine de la Computer Vision, un domaine qu'il a déjà parcouru lors d'une mission effectuée à la National United University de Taïwan sur la thématique de la reconnaissance faciale.

La Sté Keyrus SA a publié ce contenu, le 23 avril 2019, et est seule responsable des informations qui y sont renfermées.
Les contenus ont été diffusés par Public non remaniés et non révisés, le23 avril 2019 07:59:15 UTC.

Document originalhttp://www.keyrus.com/fr/post/?post_pk=6226

Public permalinkhttp://www.publicnow.com/view/A5FA7B7A45108BB9FF7E4D9E1C9D89694146A9F0