Pourquoi l’open source est-il omniprésent en IA ?

22 octobre 2018

« I think open source research is very helpful for startups. It speeds up trying new things. Suppose there is a new idea that has been published and you are trying to solve a problem similar in principle but in a different domain or the same problem with some modification, you can quickly take the published code, adapt it per your needs and use it. »

– Kundan Kumar, cofondateur de Lyrebird AI

L’intelligence artificielle (IA) est la technologie marquante de l’économie numérique contemporaine. Cette dernière est par ailleurs caractérisée par une utilisation massive des codes ouverts (open source), protection dont les fondements juridiques résident dans le droit d’auteur classique et son démembrement en une licence bien particulière — la licence d’open source(1). La création du code ouvert repose ainsi sur des principes collaboratifs et libertaires aux antipodes de ceux qui sous-tendent les licences propriétaires caractéristiques du milieu des affaires. Quel intérêt détiennent les acteurs du secteur privé à partager des innovations à extrêmement haute valeur commerciale du fait de leur secret? L’omniprésence des codes ouverts dans les contributions récentes à l’IA fondamentale et appliquée ne repose certainement pas sur une prise de conscience collective pour l’avancée de la science ; s’inscrit-elle donc plutôt dans une nouvelle logique d’appropriation des idées dans l’économie digitale(2)?

Droit d’auteur et IA

Au Canada, le droit d’auteur est une protection automatique octroyée à l’auteur d’une œuvre de nature littéraire, artistique, dramatique ou musicale si elle présente un caractère d’originalité. Les définitions contenues à l’article 2 de la Loi sur le droit d’auteur associent le programme d’ordinateur à une « œuvre littéraire » et le protègent dans sa forme d’expression, le code source. En réalité, les systèmes informatiques capables de reproduire l’intelligence humaine ont des composantes qui vont au-delà de simples « programmes d’ordinateur ». Ces dernières sont donc a fortiori protégées par le droit d’auteur, car ils sont d’autant plus originaux(3). Par ailleurs, la protection canadienne est reconnue dans les 163 autres pays signataires de la Convention de Berne pour la protection des œuvres littéraires et artistiques du 19 novembre 1984, ce qui étend cette protection à l’échelle interétatique.

Un souci majeur en matière de logiciel réside dans le fait que les idées qui sont à l’origine du code source peuvent être réutilisées en toute légalité grâce au processus de décompilation (reverse engineering). En effet, le droit d’auteur ne protège pas l’idée, mais uniquement sa forme d’expression. Toutefois, les algorithmes à la base des systèmes d’IA sont si complexes qu’il est presque impossible de les retracer en utilisant cette technique(4). Ainsi, le droit d’auteur est une protection assez complète lorsqu’on parle du code source des systèmes d’IA.

La licence propriétaire et la licence ouverte

Le titulaire d’un droit d’auteur sur un système d’IA peut en démembrer les droits patrimoniaux(5). Il en détermine les conditions et les limites dans une licence de cession ou de concession soumise au droit commun des contrats. Dans le cas d’une concession avec redevances monétaires, on parle d’un « logiciel propriétaire(6) » ; Microsoft Word en est un exemple.

À l’opposé du spectre, l’auteur d’un programme peut aussi choisir de le rendre disponible aux tiers en open source, c’est alors un logiciel « ouvert » ou « libre ». Ce phénomène est aujourd’hui particulier et généralisé en IA. Selon un guide de référence créé par le gouvernement du Québec, « un logiciel libre [ou] ouvert est avant tout un logiciel dont l’utilisation, l’adaptation et la distribution sont soumises à des conditions permissives ». Le principe à l’origine du mouvement est la libre circulation des connaissances. L’Open Source Initiative (OSI), l’une des deux organisations initiatrices du mouvement en Californie dans les années 1980, définit dix critères bien précis pour l’obtention de son approbation et ne se cache pas d’en revendiquer le monopole terminologique.

Du copyright au copyleft

Dans le domaine du libre(7), il existe plusieurs types de licences, dont celles avec copyleft(8), méthode pour obliger les versions modifiées ou étendues d’un programme libre à être libres également(9). En pratique, il en existe plusieurs degrés d’intensité.

Les licences libres dites avec « copyleft fort » sont critiquées pour leur effet « contaminant » ou « viral » puisqu’alors il n’est pas possible de profiter des systèmes informatiques qui en sont issus sans devoir se soumettre à l’entièreté des règles de distribution préétablies dans la licence originale. La General Public Licence (GPL) en est la première manifestation et elle demeure la licence ouverte (ou libre) la plus utilisée à travers le monde.
Les licences libres dites avec « copyleft standard » autorisent la redistribution du code source modifié sous d’autres licences, mais pour les ajouts exclusivement. La licence Apple Public Source License 2.0. en est un exemple.
Les licences dites « permissives » sont libres, mais n’ont pas de copyleft, c’est-à-dire que les ajouts et modifications au code source du logiciel initial ne sont soumis à aucune exigence. Dans ce cas, le code source tombe dans le « domaine public », il peut même être réutilisé dans des logiciels propriétaires à des fins commerciales. Le seul et unique but des licences permissives est d’inciter les développeurs à utiliser le logiciel, « une utilisation massive dans un grand nombre de projets étant un gage de qualité́ et donc une forme de reconnaissance — purement gratuite — de ses auteurs(10) ». Apache 2.0 est la licence sans copyleft par excellence.

Alors que le marché du logiciel libre traditionnel est dominé par un copyleft fort, les géants du web démontrent une préférence systématique pour des licences permissives pour distribuer le contenu de leurs librairies d’IA. En effet, Google a donné le coup d’envoi en annonçant en 2015 l’ouverture de sa librairie d’apprentissage automatique à code ouvert TensorFlow sous Apache 2.0. Depuis, System ML d’IBM et MXnet d’Amazon se répandent sous la même licence. CNTK de Microsoft est distribué sous la licence X11 (MIT), tandis que Torch et Caffe 2 de Facebook le sont sous la licence Berkeley Software Design (BSD). De son côté, Apple traînait de la patte, mais a finalement annoncé la sortie de Core ML sous BSD en 2017. Ce sont toutes les trois des licences permissives(11).

«Strong industrial players are backing different software stacks in a stimulating competition. We are proud that most of the innovations Theano introduced across the years have now been adopted and perfected by other frameworks. […] In that context, we came to the conclusion that supporting Theano is no longer the best way we can enable the emergence and application of novel research ideas.»

– Yoshua Bengio, directeur du MILA, rendant public l’arrêt progressif de la librairie Theano en 2017

Un avenir prometteur se dessine pour l’« IA générale »

Le constat de l’utilisation soudaine et généralisée du code ouvert sans copyleft pour l’IA annonce le début d’une compétition des géants à coup de logiciels innovateurs en apprentissage automatique, les grands noms cherchant à se démarquer des produits concurrents. Bien que cette compétition s’inscrive certainement dans une optique marketing, les joueurs publics ou désintéressés peuvent en tirer leur épingle du jeu. Le Laboratoire de cyberjustice s’est notamment aidé du contenu disponible sur la librairie TensorFlow, développée par Google, pour mettre sur pied le chatbot Procezeus. Cette mise en commun des connaissances via l’utilisation massive des codes ouverts(12) par l’ensemble de la communauté des développeurs et chercheurs en IA permet ainsi de faire avancer plus rapidement la recherche fondamentale et appliquée vers une « IA générale(13) ». Toutefois, elle s’inscrit pour certains dans une logique capitaliste antagoniste à celle de l’OSI et la FSF(14).

Cependant, le partage libre du code source d’un système informatique n’est pas suffisant, à lui seul, pour faire avancer la science de l’IA. En effet, nous sommes encore loin de développer des algorithmes capables de s’entraîner sans de bons ensembles de données(15). La plupart des avancées en deep learning utilisent la méthode de l’apprentissage automatique dit « supervisé », qui nécessite une grande quantité de données associées aux réponses attendues. Ainsi, il arrive que le titulaire du droit d’auteur d’un système informatique distribue le code source de son algorithme en open source, sans toutefois divulguer l’ensemble de données avec lequel il a été entraîné.

Dans tous les cas, un réel avenir se dessine pour ce modèle collaboratif, ouvert sur le partage et favorisant l’innovation. D’autant plus que les acteurs qui y contribuent semblent préoccupés par le développement d’outils d’IA éthiques et responsables. Voyons à titre d’exemple l’Open AI, la Déclaration de Montréal pour un développement responsable de l’IA ou encore la Research Priorities for Robust and Beneficial Artificial Intelligence : An Open Letter.

Soleïca Monnier

1. Andrew Keisner, Julio Raffo et Sacha Wunsch-Vincent, « Breakthrough Technologies – Robotics, Innovation and Intellectual Property », WIPO 2015, p. 31.

2. En ligne : « https://www.iflscience.com/technology/why-big-tech-companies-are-open-sourcing-their-ai-systems/ » (consulté le 19 octobre 2018).

3. À ce sujet, consulter Morton David Goldberg et David O. Carson, « Copyright Protection for Artificial Intelligence Systems Part I », (1991) 39 J. Copyr. Soc. USA 57‑75, 65.

4. « Intellectual Property and Artificial Intelligence », Lavery, en ligne : <http://www.lavery.ca/en/publications/our-publications/3037-intellectual-property-and-artificial-intelligence.html> (consulté le 14 mai 2018).

5. Inversement, l’auteur de l’œuvre dispose de droits moraux attachés à l’œuvre qui sont incessibles. Préc., note 1, art. 13 (1) et art. 14.1. (1) et (4).

6. Enligne:https://www.tresor.gouv.qc.ca/fileadmin/PDF/ressources_informationnelles/logiciels_libres/ll.pdf> (consulté le 7 mai 2018), au paragraphe 35.

7. Le terme « ouvert » est associé à l’OSI, alors que « libre » l’est à la FSF. À des fins de concision, tous deux sont utilisés de manière interchangeable.

8. Le terme est popularisé en 1985 par la Free Software Foundation (FSF). Pour consulter la définition exacte, en ligne : < https://www.gnu.org/licenses/copyleft.fr.html> (consulté le 14 mai 2018).

9. Selon le site du Projet GNU, en ligne : <https://www.gnu.org/licenses/copyleft.fr.html> (consulté le 14 mai 2018).

10. Vincent GUILBEAU, Audran LE BARON et Alexandre TISSERANT, « Les différents types de licence du logiciel libre », en ligne : <http://www.audran.org/download/ENST_Licences_libres.pdf> (consulté le 16 mai 2018), à la page 2.

11. Les licences ont été classifiées par Wikipedia, en ligne : « https://fr.wikipedia.org/wiki/Liste_de_licences_libres » (consulté le 15 mai 2018).

12. À ne pas confondre avec le libre accès (open access) qui confère à un utilisateur l’accès libre et gratuit à un contenu numérique sur des plateformes web comme GitHub ou ArXiv. Ce modèle ne comporte pas les quatre libertés caractéristiques de l’open source.

13. L’IA générale (ou forte) suppose une modélisation de l’ensemble du fonctionnement de la pensée humaine. Elle n’existe pas encore en 2018.

14. Préc., note 8.

15. Les ensembles de données sont protégés par le droit d’auteur au même titre que les systèmes informatiques qui les traitent. En ligne : « https://m.esa.int/About_Us/Law_at_ESA/Intellectual_Property_Rights/Copyright_and_databases » (consulté le 19 octobre 2018).

Ce contenu a été mis à jour le 7 mars 2019 à 18 h 30 min.