Justice prédictive : A-t-on le droit de prédire le droit ? « 11. H5 »
Intervention lors du colloque de l’ISPEC, Novembre 2017
« Nouvelles technologies et justice pénale ».
La justice prédictive est une notion aussi complexe qu’absurde… au sens camusien.
Pour être bien appréhendée elle exige une bonne connaissance de l’ingénierie juridique et judiciaire, une connaissance certaine de l’informatique et, surtout, un contexte connu.
Elle apparaît, en ses termes les plus simples, comme un retour de l’affrontement quasi séculaire entre la machine et l’homme. Alimentée par le cinéma, l’on sait à quel point l’angoisse est grande quand l’on songe à Skynet et matrix.
Dans le champ du droit pénal, l’on pense assez rapidement aux precogs de Philip K Dick même si ici aucun algorithme n’est mobilisé. Il s’agit sans doute, plus précisément, de police prédictive débouchant sur une justice prédictive.
L’idée n’est pas ici d’exposer et de prétendre pouvoir exposer la construction algorithmique à même de décrire les tendances de la justice pénale.
Il apparaît simplement nécessaire de présenter le matériau brut et les enjeux. Bref, il faut surtout contextualiser notre problématique.
Pour ce faire, rien de mieux que … les jeux.
- h5 ! Il s’agit d’un coup d’échec joué par un ordinateur contre Gary Kasparov. Ce coup est si étonnant au milieu de la 5ème partie de la revanche de 1997 que Kasparov s’écrie après la partie : aucun ordinateur ne joue 11. H5. Selon lui IBM, derrière Deeper Blue, avait triché puisqu’il était évident qu’un humain et plus précisément, un grand maître avait amélioré la machine. Kasparov venait de découvrir le machine learning supervisé. L’algorithme était censé avoir emmagasiné et étudié des milliers de parties pour déterminer, statistiquement sur une profondeur de 7 coups, le coup le plus sûr. Mais la machine allait encore plus loin. Elle avait semble-t-il appris, au contact d’un humain, à improviser.
Pire, dans le cadre du jeu de go (je vous mets au défi de comprendre les règles) la dernière intelligence artificielle arrive à apprendre en jouant contre elle-même (c’est le deep learning, ce qui rappelle cette fois-ci War games). Je ne vais pas entretenir un suspense illusoire : elle est devenue imbattable. Elle connaît toutes les parties jouées donc par analyse statistique elle connaît les meilleurs coups déjà joués. Et par apprentissage solitaire, elle s’améliore… sans donc la main de l’homme.
Peut-on transposer tout ceci en droit pénal et prédire la justice : l’intelligence artificielle va-t-elle faire œuvre de justice ?
En réalité l’intelligence artificielle peut déjà lire le passé (I), mais elle ne peut dire l’avenir (II).
I – Lire le passé
Pour lire le passé de la justice pénale il faut avoir accès à un grand nombre de données (A) et les forer, les explorer (B) avant de les exploiter.
A – Big data
Un besoin. L’essentiel est ici. Beaucoup considèrent d’ailleurs que l’outil informatique est bien moins important. L’on sait que les androïdes rêvent de moutons électriques, les juristes eux rêvent de prévisibilité. Le contrat est un de ses vecteurs. Le droit pénal lui-même est marqué au fer rouge par le principe de légalité et sa fonction essentielle : la prévisibilité de la répression. Or, pour prévoir, il faut voir. Mais avec plus de 1,7 million de décisions de justices rendues chaque année par les juridictions répressives, il est difficile de voir précisément à quoi ressemble la justice pénale. Les statistiques officielles du ministre de la justice aident… partiellement… mais surtout grossièrement. Si l’on sait combien de condamnations sont prononcées chaque année pour telle infraction, la part de ferme et de sursis etc… il est impossible de déterminer quels ont été les facteurs justifiant l’application de la loi pénale.
Seul un accès à l’ensemble ou à un échantillon représentatif des décisions pénales sur une période de temps assez longue permet de balader un miroir le long de la rivière répressive.
Pour pouvoir exploiter les données, encore faut-il y accéder. Les éditeurs privés ont démocratisé l’accès à la jurisprudence des CA, Lexis en tête. Les bases de données offertes aux magistrats leur permettent d’accéder à de la jurisprudence et à la doctrine de la Cour de cassation (Jurica). Restaient les décisions de 1ère instance. La loi pour une République numérique a permis l’accès à cet open data judiciaire… mais sans décret depuis plus d’un an. Et avec une volonté assumée du Sénat de revenir en arrière car l’anonymat n’est pas parfait et permet la réidentification. Il n’y a qu’à lire les décisions rendues cette année par la cour de cassation les 21 mai[1] et 11 octobre[2]… Qui est donc ce M. X, maire de Levallois poursuivi avec sa femme pour blanchiment etc… et dont la villa insulaire a été saisie… Le mystère reste entier… Un peu comme cet acronyme O.D.I.L dans la Cité de la peur. Insoluble.
Bref il faut avoir accès à ces données pour voir la justice pénale un peu comme France culture l’avait fait en CI à Marseille cet été. D’où l’intérêt de se méfier car, vous n’êtes pas sans savoir, que le miroir tendu à la justice… a été brisé par l’institution.
Bref il faut de la data pour avoir une image la plus fidèle de la réalité judiciaire.
B – Data mining
Or, cette data n’est pas exploitable par l’homme. Sauf à entreprendre une œuvre herculéenne à plusieurs pendant des décennies, éplucher ces données ne peut se faire « manuellement ». Même Turing n’a rien pu face à Enigma sans ses fameuses et précieuses machines. Il faut forer, opérer des recoupements, essayer de dessiner des tendances, des lignes explicatives en déterminant les facteurs déterminants (positifs et négatifs), des facteurs neutres (nuls) : il faut recourir au data mining.
Pour ce faire, les opérations de régression statistique au moyen d’algorithmes sont nécessaires pour identifier les variables significatives. Alors il existe bien évidemment plusieurs techniques… mais j’aurai presque tendance à dire… peu importe… car en réalité l’essentiel c’est que le code soit ouvert. Cela permettra aux informaticiens d’en comprendre l’architecture, et aux citoyens, de le tester. Nous y reviendrons.
Bref, la combinaison du big data et d’un code en open source nous mènera à un savoir. Quelle est la nature de ce savoir ? Certains théoriciens de haut vol, les Felix Baumgartner de l’ésotérisme juridique, s’escriment à répondre à cette question. Il s’agit de données relatives à l’application du droit par des juges et permettant d’éclairer le sens de leur décision…
Je vous laisse seuls juges de la nature de ce savoir portant sur le droit réellement appliqué.
Ce que nous révèlera l’algorithme : des critères déterminants, de manière positive, de manière négative ou nuls…
Les peines couramment prononcées en fonction du casier, de l’origine, de la situation familiale, du sexe, du statut à l’audience… Bref des caractères déterminants pour les juges. Nous verrions la justice telle qu’elle se pratique, non telle que la Cour de cassation ou les statistiques officielles la laissent apparaître. Les cordes quantiques se délieraient enfin en ses nombreuses dimensions. Et notre monde en 4D, celui des juristes sans calculateur, apparaitrait bien étroit… et bien plat.
Reste la question : à partir des éléments compilés et architecturés, peut-on dire la justice de demain, prédire le droit ?
II – Dire l’avenir
Dire l’avenir judiciaire.. prédire les décisions de justice. Ce mythe doit être déconstruit car, tout d’abord, l’avenir n’existe pas, ensuite car le juriste aura toujours sa place quoi qu’il advienne.
A – L’avenir n’existe pas
A proprement parler, les régressions et le deep learning peuvent établir des schémas, des tendances. L’on peut expliquer le passé malgré des erreurs de régression. Au stade où nous en sommes, l’on peut tenter d’identifier des facteurs récurrents et déterminants. Soit. Pourrait-on avec de l’IA calculer le sort réservé à une situation nouvelle non encore jugée ?
La réponse est oui. Evidemment. Un algorithme peut déterminer la peine applicable ou encore le principe même d’une condamnation ; et ce en analysant les variables qualitatives relatives aux preuves, non pas a priori et de manière légale, mais en discriminant à partir d’une valorisation des preuves et des moyens de défense, nullités comprises. Tout ceci est faisable. Et avec du deep learning, l’on pourrait même demander à une IA de s’entrainer à prononcer des décisions, en calculant son coût et en mesurant le risque de récidive avec des données actuarielles sur la foi d’expertises. Une fois que des données de qualité sont intégrées dans la machine, que la régression est acquise, les facteurs déterminants de toutes les questions peuvent être calculés.
Sur le modèle de Ross et Watson d’IBM, l’on peut envisager, à terme qu’un ordinateur soit à même de produire du langage juridique, du natural language processing. Simple et basique dans un premier temps et sur un modèle neuronal à terme. Tout est imaginable. Tout. Est-ce effrayant ? Non. Car le schéma décrit une tendance, une ligne de fuite non un état certain. La structure repose sur beaucoup de données à quantification et qualification variables (parole des experts, force probante des éléments discutés…). La seule question d’importance est ailleurs : qui doit prendre la décision ? Avec les régressions, l’on sait ce qu’ont fait les juges. Avec le deep learning, l’on sait ce que la machine peut proposer. Mais est-ce ce qui va arriver ? A dire vrai, l’avenir n’existe pas. Il existe virtuellement. La décision n’est réelle qu’au jour où elle est revêtue de la force exécutoire. A l’état numérique elle n’est qu’une possibilité.
Si la machine est toute puissante et a le dernier mot, alors la machine est oracle, et la justice est prédite. Mais aussi puissante que soit la machine, aussi compétente soit elle, aussi précise soit-elle, la machine ne dit pas le droit. Elle sait ce que la justice a dit, mais ne parle qu’en son nom. Elle n’est pas justice : ni institution, ni vertu.
La séparation des pouvoirs doit ici s’appliquer. Le comics judge Dread ne nous a t-il pas appris que policier et magistrat jurent quand ces deux fonctions sont combinées ? Robe sur insigne ne vaut. De la même manière, code (source) sur code (pénal) ne vaut.
B – Le juriste existe
Encadrement. Il semble difficile de se passer d’un encadrement minimal de l’IA juridique. Sans aller jusqu’à un service public chargé du contrôle du code source, Rubin Sfadj, estime que l‘IA devrait reposer sur trois grands principes éthiques :
- le principe de responsabilité conduisant à désigner pour chaque algorithme utilisé une personne référente, à l’instar du directeur de publication en droit de la presse
- le principe de clarté, c’est-à-dire la mention explicite dans une décision de justice élaborée avec l’aide d’un algorithme de ce procédé et la motivation sur laquelle repose le recours à ce type d’outil
- le principe de précision permettant de corriger une source d’erreur à tout stade du traitement algorithmique.
Prenons position : il faut que la data soit accessible et le code ouvert, pour le tester et l‘améliorer. Les tests virtuels par les informaticiens et les citoyens seront indispensables. Le code (comme le code pénal) doit être dans le domaine public : accessible et intelligible. Il doit être mis à l’épreuve, même, voire surtout, de manière virtuelle.
Le contrôle humain est d’autant plus important que le machine learning a tendance à aggraver les biais humains. Les exemples récents relatifs à la police prédictive aux USA en attestent. Un constat similaire avait pu être dressé dans le cadre d’une étude confidentielle du PNR anglais commandé par le Conseil d’Europe. Il faut bien ici comprendre que c’est la programmation qui pêche. Le biais humain de programmation est aggravé lors de l’exploration et de l’exploitation des données.
Utilité réelle. A dire vrai, les outils numériques, AI faible ou forte, seront surtout d’une aide précieuse pour les chercheurs et les avocats. L’on a pu prétendre que le droit pénal ne se transige pas. Le TGI de Paris vient de valider la première convention judiciaire d’intérêt public. Ne serait-il pas pertinent pour un avocat de connaître la tendance judiciaire avant de conseiller à son client d’accepter ou non une offre (CRPC, composition pénale…). Quid de sa responsabilité civile professionnelle si son conseil est contredit par une régression statistique accessible et fiable. Savoir c’est pouvoir. Comment pourrait-on vouloir se priver d’un tel savoir ? La justice risque de s’aseptiser par volonté de ne pas se démarquer de la régression ? Les avocats ne prendront plus aucun risque ? Il faudra comme toujours savoir amortir les risques. Les avocats le font déjà… par intuition et connaissance pratique. Désormais ils sauront. Ils devront apprendre à s’en servir et peut-être inventer une nouvelle défense pénale. Peut-être en discutant le code. Non le code pénal… mais le code source. Pour isoler des biais, les discuter et les critiquer juridiquement. Les compétences vont devoir évoluer. Et il est temps.
Cl. Ne nous trompons pas, ce qui se joue est un paradoxe. Les juristes qui aiment maitriser un langage et un savoir monopolistiques sont inquiets qu’un langage et un savoir informatiques viennent leur révéler une vérité, non pensée, mais calculée… et plus proche de la réalité que nos chères fictions. Comme le dit Antoine Garapon, le choc culturel c’est la rencontre entre le droit (les juristes) et les start-ups du numérique (non juridiques). Quid des données personnelles ? Quid de l’anonymat ? Quid du libre arbitre ? Quid de la force du droit et des juristes ?
Je ne sais pas, je ne prédis pas l’avenir.
[1] Crim. 31 mai 2017, n°16-86870
[2] Crim. 11 octobre 2017, n° 16-86868