Les techniques algorithmiques de l’IA | Support vector machine

Des systèmes qui raisonnent par analogie : le cas des SVM

Par Jie Zhu – auxiliaire de recherche au Laboratoire de cyberjustice.

De l’argument d’analogie en droit – Le raisonnement par analogie n’est pas étranger aux juristes. Dans l’application et l’interprétation du droit, l’analogie consiste à étendre l’application d’une norme juridique à une situation qui partage des traits communs significatifs avec d’autres situations expressément visées par la loi. À situations égales, même traitement juridique; à situations similaires, traitement similaire. L’enjeu consiste à identifier les traits suffisamment significatifs pour justifier un traitement (presque) égal au regard des objectifs poursuivis par le législateur, des principes généraux du droit ou des règles de droit dégagées par une décision de justice antérieure (cf. stare decisis).

Cet exercice de généralisation des cas connus aux cas non prévus par le législateur, correspond à une extraction et analyse de la connaissance juridique à partir de données existantes pour combler les vides juridiques ainsi qu’assurer la cohérence et la prévisibilité du droit. C’est aussi un exercice qui pourrait, à certaines conditions, être assisté du concours d’algorithmes d’apprentissage intelligent pour réduire la part d’aléatoire, c.-à-d. d’arbitraire dans l’interprétation et l’application du droit.

Des machines à vecteur de support / séparateurs à vaste marge (SVM) – Dans le billet de blogue précédent de notre série, nous avons été introduits aux méthodes d’inférence bayésiennes cherchant à maîtriser l’incertitude relative à l’occurrence d’événements singuliers (convergence simple). Les systèmes qui « raisonnent » par analogie, de l’autre côté, s’intéressent au mouvement d’ensemble d’une classe d’événements partageant certains traits similaires (convergence uniforme). L’un de ces algorithmes utilise des machines à vecteur de support ou séparateurs à vaste marge (SVM) pour optimiser le classement des données à partir de différentes variables qui les caractérisent (Boser, Guyon & Vapnik, 1992). Il peut s’agir de classer les thèmes de romans (p.ex. amour, policier, aventure, science-fiction) en fonction du vocabulaire utilisé (p.ex. champs lexicaux), d’évaluer le poids santé des personnes en fonction de leur tour de taille et poids individuels, voire d’évaluer le niveau de risques suicidaires des personnes en fonction notamment de leurs antécédents médicaux et, de manière controversée, du contenu de leurs messages publiés dans les réseaux sociaux.

L’objectif est de trouver, à partir des données existantes dites d’entraînement, une fonction de discrimination pouvant être appliquée avec justesse dans la classification du plus grand nombre de données possible. Cette fonction de discrimination ou classifieur peut correspondre à une droite séparatrice (de 2 variables), à un plan séparateur (de 3 variables) ou à ce qu’on appelle en termes techniques tout « hyperplan » permettant de classifier les données pouvant être décrites à l’aide de plusieurs variables.

Schéma adapté de : Support Vector Machines

<https://reussirlem2info.files.wordpress.com/2013/02/bekhelifi-okba-svm-resume.pdf >

Trouver l’hyperplan optimal parmi une infinité de possibilités de catégorisation implique non seulement le (simple) traçage d’une frontière entre les données, mais la nécessité de définir une délimitation optimale des marges, ce qu’on appelle des vecteurs de support qui mesurent en fait les distances de cette frontière aux données limites d’entraînement pour minimiser les erreurs de classement des nouvelles données. Afin d’optimiser ces marges de sorte qu’elles puissent être appliquées au plus grand nombre de nouvelles données possible, une sélection judicieuse des données d’entraînement est de mise dans le cadre d’un apprentissage supervisé afin qu’elles soient suffisamment représentatives de la complexité du phénomène étudié.

L’hyperplan séparateur ne permet que de discriminer les données linéairement séparables. Pour les données ne pouvant pas a priori être départagées sur deux régions de l’espace à partir d’une frontière linéaire (p.ex. régions de données concentriques), une étape supplémentaire est nécessaire pour transformer leur représentation, de sorte qu’un classifieur linéaire puisse y être appliqué. Pour ce faire, l’astuce dite du noyau (kernel trick) est l’une des méthodes les plus utilisées pour transformer la représentation des données par le biais des fonctions polynomiales, radiales ou sigmoïdes, afin que les données deviennent plus amènes aux manipulations linéaires.

Des classifications binaires à multi-classes – Conçue à l’origine pour les classifications binaires, les SVM peuvent être adaptées aux classifications en classes multiples.

Schéma tiré du Multi-class Classification – One-vs-All & One-vs-One

<https://towardsdatascience.com/multi-class-classification-one-vs-all-one-vs-one-94daed32a87b>

Il s’agit d’entraîner l’algorithme à identifier une classe à la fois, la distinguant de toutes les autres classes (one vs rest approach). Cette méthode nécessite autant de classifieurs qu’il y a de classes à catégoriser. Appliquant cette méthode aux nouvelles données, celles-ci seront catégorisées dans la classe qui obtient la plus haute probabilité parmi toutes les autres classes selon la distance séparant les données des différents hyperplans séparateurs.

Comparés aux méthodes linéaires d’apprentissage automatique, les SVM excellent dans la reconnaissance des régularités, modèles, structures et motifs subtils impliquant des jeux de données complexes. Tout en prenant appui sur les théories statistiques, les SVM n’adoptent pas a priori une approche probabilistique en ce qu’ils donnent une réponse déterministe aux exercices de classification plutôt qu’un calcul des probabilités, sauf dans les cas de classifications multi-classes (supra). Comparées aux autres méthodes non linéaires, les SVM visent la solution optimale globale (p.ex. le meilleur hyperplan séparateur des catégories) sans être piégés dans des minima locaux qui affectent l’efficacité prédictive des réseaux de neurones.

Des domaines d’application des SVM – Les SVM se prêtent aux exercices de catégorisation impliquant la reconnaissance des formes, la reconnaissance des structures, l’étude des tendances ou des schèmes comportementaux, dont :

SVM et droit – Dans le domaine juridique, certaines questions se prêteraient davantage que d’autres aux généralisations par SVM.

  • L’évaluation du risque de récidive des délinquants, à l’aide des facteurs de risque bien documentés en criminologie, est un premier exemple d’application des SVM au droit. Wang, Mathieu, Ke et Cai (2010) ont comparé, à cet égard, la validité prédictive des modèles de la régression logistique, des réseaux de neurone et des SVM à partir des données d’ex-détenus obtenues du National Archive of Criminal Justice Data (NACJD). Les résultats montrent que les SVM et les réseaux de neurones performent mieux que la régression logistique. La validité prédictive de chacun des modèles oscille entre 62 % et 69 %, cependant que les trois modèles peuvent se compléter pour donner de meilleures prédictions (jusqu’à 70 %). Suite aux controverses soulevées par l’utilisation de l’outil COMPAS (Correctional Offender Management Profiling for Alternative Sanctions) dans les juridictions américaines pour prédire le risque de récidive des délinquants, les travaux de Dressel et Farid (2018) remettent toutefois en doute l’intérêt des algorithmes de classification tant linéaire (régression logistique) que non linéaire (SVM) dans cette évaluation : la prédiction du risque par les algorithmes donnerait des résultats presque équivalents aux jugements des participants humains non experts.
  • L’analyse de la jurisprudence, de l’autre côté, s’avère un domaine plus prometteur. Elle s’inscrit dans le prolongement des analyses sémantiques et textuelles par les SVM pour classer le dispositif – binaire – des jugements (p.ex. requête accueillie vs rejetée). Les équipes d’Aletras (2016) et de Medveda (2020), par exemple, ont utilisé les SVM pour prédire le dispositif des décisions de la Cour européenne des droits de l’homme relatives à l’existence ou non de violations à la Convention européenne des droits de l’homme. Après avoir entraîné l’algorithme avec le texte des jugements publiés, la prédiction du dispositif d’autres jugements s’effectue à partir de l’analyse textuelle des requêtes et mémoires déposés par les parties relatives aux affaires pendantes. L’hypothèse de travail des chercheurs est qu’il existe suffisamment de similitudes entre certaines sections des jugements publiés ainsi que des requêtes des parties y afférentes (si disponibles) et le texte des requêtes déposées par les parties relatives aux affaires pendantes. Cette hypothèse a pu être validée avec une précision moyenne de 75 % à 79 % selon les équipes. De leur côté, Sulea et ses collaborateurs (2017) obtiennent, à l’aide des SVM, une précision moyenne de 90 % dans l’évaluation du dispositif des arrêts de la Cour de cassation française à partir des descriptions d’affaires (case description) par la Cour élaguées de tout champ lexical relatif au dispositif des jugements. Ces résultats préliminaires, quoique encourageants, doivent être interprétés avec prudence : l’algorithme ne raisonne ni ne comprend le droit comme le font un avocat, un juge et un justiciable.

Rappelons que l’argument d’analogie a une raison d’être fondamentale en droit : tant les principes d’égalité (devant la loi) que de sécurité juridique exigent précision et prévisibilité dans l’interprétation et l’application de la loi aux situations factuelles semblables. Si la difficulté de prévenir un exercice arbitraire de la discrétion augmente avec la multiplicité des variables méritant considération, une analyse quantitative et exhaustive de la jurisprudence, avec l’assistance d’algorithmes intelligents, constitue un pas dans la bonne direction.

Il ne fait pas de doute que la capacité des SVM d’analyser des jeux de données complexes impliquant une multiplicité de variables constitue une force. Toutefois, elle n’est pas suffisante pour répondre aux impératifs d’équité procédurale qui demandent non seulement que justice soit rendue, mais encore qu’elle soit rendue d’une manière qui soit intelligible aux justiciables. Or, plus un algorithme est en mesure de donner des résultats justes à partir des modèles complexes, moins ses résultats s’avèrent interprétables et partant accessibles aux citoyens ordinaires. Ce compromis entre performance et interprétabilité n’est pas propre aux SVM, mais se rattache également à d’autres techniques algorithmiques ainsi qu’à tous les modèles d’apprentissage complexes (non linéaires), dont l’apprentissage profond par réseaux de neurones. Cette méthode sera abordée dans le prochain billet de blogue de notre série « Techniques algorithmiques de l’IA».

***

Ce contenu a été mis à jour le 17 décembre 2020 à 7 h 51 min.