Regard sur le Deep Learning

De la reconnaissance faciale à la conduite autonome, en passant par les systèmes d’assistance intelligents (chatbots) et la création artificielle, la puissance des ordinateurs actuels conjuguée à la masse de données désormais disponibles (big data) a rendu opérationnelles plusieurs avancées en matière d’intelligence artificielle. De l’algorithme simplement exécutoire (p.ex. calculatrice) à une intelligence artificielle capable d’effectuer des tâches d’une complexité croissante, la percée technologique est redevable au perfectionnement de l’apprentissage automatique (machine learning) – dont l’apprentissage profond constitue une approche particulièrement prometteuse. En quoi consiste-elle ?

L’expression machine learning vient d’Arthur Samuel (1901-1990)i, pionnier américain de l’intelligence artificielle connu pour avoir développé, dès 1952, le tout premier programme d’auto-apprentissage du jeu de dames (Samuel Checkers-playing Program). L’apprentissage automatique cherche à développer chez l’ordinateur la capacité d’apprendre, d’optimiser sa performance sans avoir été explicitement programmé. L’objet de l’apprentissage n’est pas tant l’exécution de tâches/instructions spécifiquement programmées que le développement d’une plus grande adaptabilité opérationnelle de la machine en fonction du contexte, à partir d’un cadre de référence pertinent à l’ordinateur et entretenu par l’algorithme.

L’enjeu consiste à modéliser cette adaptabilité opérationnelle à l’aide de fonctions complexes reliant différentes variables les unes aux autres sur une base probabiliste. Tom M. Mitchell, président du département Machine Learning de l’Université Carnegie Mellon (CMU) à Pittsburgh (Pennsylvanie), décrit en ces termes les principes généraux sous-tendant cet apprentissage « expérientiel » appliqué à l’ordinateur :

« A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E. » (Mitchell, 1997 à la p 2)ii

L’expérience (E) réfère à l’ensemble des données d’entraînement à partir desquelles l’algorithme bâtira et affinera son modèle analytique ou prédictif. Les tâches (T) dont il est question consistent à appliquer ce modèle aux nouvelles constellations de données dont les interrelations n’ont pas été testées. La performance (P) du programme se mesure à la validité appliquée de ce modèle dans ses tâches d’analyse ou de prédiction à partir des données (nouvelles) initiales.

Cet apprentissage automatique par l’expérience peut être supervisé ou non supervisé. La distinction, poreuse, entre les deux réside dans l’étiquetage (ou non) des valeurs de sortie attendues des algorithmes à partir des données d’entraînement. En d’autres mots, un apprentissage automatique est dit supervisé lorsque le programme bénéficie, aux fins d’ajuster sa modélisation et de renforcer sa fonction prédictive, d’une rétroaction continue sur les « bonnes réponses » attendues ou devant être trouvées à partir des données initiales ou valeurs d’entrée. Un apprentissage dit non supervisé, de l’autre côté, laisse à l’algorithme le soin d’en découvrir la distribution statistique des échantillons d’entraînement afin d’en faire ressortir tendance et dispersion. Plus analytique que prédictif, l’apprentissage automatique non supervisé partage ainsi quelques similarités avec le forage de données (data mining) utilisé notamment en matière de détection de fraude sur la base d’anomalies de comportement considérées comme (des données) aberrantes. Les deux catégories – supervisée et non supervisée – ne sont pas toujours étanches, et certaines situations peuvent nécessiter l’hybridation des deux. C’est ce qu’on appelle l’apprentissage par renforcement.

L’apprentissage profond (ou deep learning) est une sous-catégorie de méthodes d’apprentissage automatique. Il peut être supervisé ou non supervisé. Sous forme d’un réseau de neurones artificiels calqués sur le fonctionnement de notre système nerveux, l’apprentissage profond cherche à optimiser la modélisation de relations complexes entre variables à l’aide d’une organisation en couches de neurones interconnectées. La profondeur du réseau, caractérisée par le nombre de couches neuronales intermédiaires, permet de favoriser une convergence progressive et optimisée vers la valeur finale. Cette dernière s’obtient au terme de nombreux calculs effectués par des neurones artificiels qui sont autant de fonctions (mathématiques) complexes à plusieurs variables. L’interconnexion entre différentes couches neuronales consiste à « recycler » les résultats obtenus des calculs d’une couche neuronale précédente pour les appliquer comme valeurs d’entrée à la couche subséquente, et ainsi de suite, jusqu’à l’obtention de la valeur finale (figure 1).

Figure 1 : Réseau de neurones artificiels

Source : http://penseeartificielle.fr/focus-reseau-neurones-artificiels-perceptron-multicouche/

Les résultats sont modulés non seulement par le nombre, les types ou la grandeur numérique des valeurs d’entrée, mais également par leur poids (weight) ou importance relative, mimant la fameuse plasticité synaptique essentielle dans la mémorisation et l’apprentissage de notre système nerveux. C’est également cette pondération ou importance relative accordée aux différentes valeurs ou variables d’entrée qui se trouve ajustée au cours d’un apprentissage supervisé, à l’aide d’un algorithme dit de rétropropagation (backpropagation) du gradient. Cet algorithme évalue l’écart entre la valeur finale attendue et la valeur de sortie calculée (ce qu’on appelle le gradient de l’erreur). Pour minimiser ce gradient, l’algorithme se doit de remonter vers l’arrière au travers des couches intermédiaires jusqu’à redéfinir les poids synaptiques de départ. Dans cette perspective, apprendre revient donc à déterminer les coefficients synaptiques les plus adaptés à classifier les exemples présentés.

Qu’il s’agisse d’un apprentissage automatique supervisé ou non, l’un des défis s’avère le caractère généralisable des résultats acquis par expérience. Les promesses de l’apprentissage automatique reposent sur la capacité du programme à exécuter les tâches attendues à partir de données nouvelles (non apprises) avec autant de justesse, en étendant ainsi les résultats de son observation expérientielle à un nombre suffisamment élevé de nouveaux cas. À cet effet, non seulement la disponibilité des (jeux de) données initiales s’avère indispensables, mais encore les données d’entraînement doivent constituer un échantillon représentatif des probabilités d’occurrence des divers événements, de sorte que la machine puisse construire un modèle prédictif suffisamment performant pour être applicable à un grand nombre de situations nouvelles.

i Arthur Samuel, « Some Studies in Machine Learning Using the Game of Checkers » (1959) 3 IBM Journal 211.

ii Tom M. Mitchell, Machine Learning, McGraw Hill, 1997 à la p 2, en ligne: https://www.cs.ubbcluj.ro/~gabis/ml/ml-books/McGrawHill%20-%20Machine%20Learning%20-Tom%20Mitchell.pdf

Blogue réalisé grâce à la Chaire Lexum.

Ce contenu a été mis à jour le 26 avril 2018 à 13 h 15 min.