Qwanturank

Beaucoup a été dit sur le potentiel de l’intelligence artificielle (IA) pour transformer de nombreux aspects des entreprises et de la société pour le mieux. Dans le coin opposé, la science-fiction a couvert le récit apocalyptique.

Pour garantir que les produits IA fonctionnent comme leurs développeurs le souhaitent – et pour éviter un scénario de type HAL9000 ou Skynet – le récit commun suggère que les données utilisées dans le cadre du processus d’apprentissage automatique (ML) doivent être soigneusement conservées, afin de minimiser les chances d’héritage du produit attributs nuisibles.

Selon Richard Tomsett, chercheur en IA chez IBM Research Europe, «nos systèmes d’IA ne sont aussi bons que les données que nous y mettons. Alors que l’IA devient de plus en plus omniprésente dans tous les aspects de notre vie, il est essentiel de garantir que nous développons et formons ces systèmes avec des données justes, interprétables et impartiales. »

Sans contrôle, l’influence des biais non détectés pourrait également augmenter rapidement à mesure que l’appétit pour les produits d’IA s’accélère, surtout si les moyens d’auditer les ensembles de données sous-jacents restent incohérents et non réglementés.

Cependant, bien que les problèmes qui pourraient découler d’une prise de décision biaisée en matière d’IA – comme le recrutement préjudiciable ou l’incarcération injuste – soient clairs, le problème lui-même est loin d’être noir et blanc.

Il est impossible de dissocier les questions entourant le biais de l’IA de questions complexes et de grande envergure telles que le droit à la confidentialité des données, les politiques de genre et de race, la tradition historique et la nature humaine – qui doivent tous être élucidés et pris en considération.

Pendant ce temps, des questions sur qui est responsable de l’établissement de la définition du parti pris et qui est chargé de contrôler cette norme (puis de contrôler la police) servent à brouiller les eaux.

L’ampleur et la complexité du problème justifient largement les doutes sur la viabilité de la quête pour nettoyer l’IA de la partialité, si noble soit-elle.

Qu’est-ce que le biais algorithmique?

Le biais algorithmique peut être décrit comme tout cas dans lequel des décisions discriminatoires sont prises par un modèle d’IA qui aspire à l’impartialité. Ses causes résident principalement dans les préjugés (même mineurs) qui se trouvent dans les vastes ensembles de données utilisés pour former les modèles d’apprentissage automatique (ML), qui agissent comme le carburant pour la prise de décision.

Les biais qui sous-tendent la prise de décision en matière d’IA pourraient avoir des conséquences réelles pour les entreprises et les particuliers, allant du trivial au très important.

Par exemple, un modèle responsable de la prévision de la demande pour un produit particulier, mais alimenté par des données relatives à un seul groupe démographique, pourrait générer de manière plausible des décisions qui conduiraient à la perte de vastes sommes de revenus potentiels.

De même, d’un point de vue humain, un programme chargé d’évaluer les demandes de libération conditionnelle ou de générer des devis pour les régimes d’assurance-vie pourrait causer des dommages importants s’il était faussé par un préjudice hérité contre un certain groupe minoritaire.

(Crédit d’image: Shutterstock / carlos castilla)

Selon Jack Vernon, analyste principal de recherche chez IDC, la découverte de biais au sein d’un produit d’IA peut, dans certaines circonstances, le rendre complètement impropre à l’usage.

«Des problèmes surviennent lorsque les algorithmes dérivent des biais problématiques ou involontaires. Il existe deux sources habituelles de biais indésirables: les données et l’algorithme lui-même », a-t-il déclaré à TechRadar Pro par e-mail.

«Les problèmes de données sont suffisamment explicites, car si les caractéristiques d’un ensemble de données utilisé pour former un algorithme présentent des tendances sous-jacentes problématiques, il y a de fortes chances que l’algorithme détecte et renforce ces tendances.»

« Les algorithmes peuvent également développer leurs propres biais indésirables par erreur … Célèbre, un algorithme pour identifier les ours polaires et les ours bruns a dû être rejeté après avoir été découvert, l’algorithme a basé sa classification sur la présence ou non de neige sur le sol, et ne se concentrait pas du tout sur les caractéristiques de l’ours. »

L’exemple de Vernon illustre les façons excentriques dont un algorithme peut diverger de sa destination – et c’est cette semi-autonomie qui peut constituer une menace si un problème n’est pas diagnostiqué.

Le plus grand problème avec le biais algorithmique est sa tendance à aggraver des inconvénients déjà enracinés. En d’autres termes, il est peu probable qu’un biais dans un produit d’IA entraîne le rejet erroné d’une demande de carte de crédit par un banquier en col blanc, mais peut jouer un rôle dans un membre d’une autre population (qui a historiquement vu une plus grande proportion de demandes rejetées) souffrant de la même indignité.

La question de la représentation équitable

Le consensus parmi les experts que nous avons consultés pour cette pièce est que, afin de créer l’IA la moins préjudiciable possible, une équipe composée du groupe d’individus le plus divers devrait participer à sa création, en utilisant des données de la gamme la plus profonde et la plus variée des sources.

Le secteur de la technologie, cependant, a un problème de longue date et bien documenté avec la diversité en ce qui concerne le sexe et la race.

Au Royaume-Uni, seuls 22% des administrateurs des entreprises technologiques sont des femmes – une proportion qui est restée pratiquement inchangée au cours des deux dernières décennies. Pendant ce temps, seulement 19% de l’ensemble de la main-d’œuvre technologique sont des femmes, loin des 49% qui représenteraient avec précision le rapport des femmes aux hommes au Royaume-Uni.

Dans le secteur des grandes technologies, quant à lui, la représentation des groupes minoritaires a également connu peu de progrès. qwanturank et qwanturank sont des géants de l’industrie dans le contexte du développement de l’IA, mais le pourcentage d’employés noirs et latino-américains dans les deux entreprises reste infime.

Selon les chiffres de 2019, seulement 3% des 100 000 employés et plus de qwanturank étaient latino-américains et 2% étaient noirs – les deux chiffres n’ont augmenté que de 1% par rapport à 2014. Le record de qwanturank n’est que légèrement meilleur, avec 5% de ses effectifs constitués de latin Américains et 3% de salariés noirs en 2018.

L’adoption de l’IA en entreprise, en revanche, a monté en flèche au cours d’une période similaire selon le cabinet d’analystes Gartner, augmentant de 270% entre 2015-2019. On pourrait donc dire que la clameur pour les produits d’IA est bien plus grande que l’engagement d’assurer leur qualité.

(Crédit image: Shutterstock / elenabsl)

Patrick Smith, CTO de la firme de stockage de données PureStorage, estime que les entreprises le doivent non seulement à celles qui pourraient être affectées par des biais pour résoudre le problème de la diversité, mais aussi à elles-mêmes.

«Les organisations à tous les niveaux risquent de se retenir de l’innovation si elles ne recrutent qu’à leur image. Construire une stratégie de recrutement diversifiée, et donc une base d’employés diversifiée, est essentiel pour l’IA car elle permet aux organisations d’avoir plus de chances d’identifier les angles morts que vous ne seriez pas en mesure de voir si vous aviez une main-d’œuvre homogène », a-t-il déclaré.

«La diversité et la santé d’une organisation sont donc spécifiquement liées à la diversité au sein de l’IA, car elles leur permettent de lutter contre les biais inconscients qui autrement pourraient passer inaperçus.»

De plus, les questions sur la façon précise de mesurer la diversité ajoutent une autre couche de complexité. Un ensemble de données diversifié devrait-il permettre à chaque race et à chaque sexe une représentation égale, ou la représentation des minorités dans un ensemble de données mondial devrait-elle refléter les proportions de chacun dans la population mondiale?

En d’autres termes, les ensembles de données alimentant des modèles applicables à l’échelle mondiale devraient-ils contenir des informations concernant un nombre égal d’Africains, d’Asiatiques, d’Américains et d’Européens, ou devraient-ils représenter un plus grand nombre d’Asiatiques que tout autre groupe?

La même question peut être posée avec le sexe, car le monde compte 105 hommes pour 100 femmes à la naissance.

Le défi auquel sont confrontés ceux dont le but est de développer une IA suffisamment impartiale (ou peut-être proportionnellement impartiale) est le défi auquel sont confrontées les sociétés du monde entier. Comment pouvons-nous nous assurer que toutes les parties sont non seulement représentées, mais entendues – et quand un précédent historique travaille tout le temps pour saper l’effort?

Les données sont-elles intrinsèquement compromises?

L’importance d’introduire les bonnes données dans les systèmes ML est claire, en corrélation directe avec la capacité de l’IA à générer des informations utiles. Mais identifier les bonnes ou les mauvaises données (ou les bonnes ou les mauvaises) est loin d’être simple.

Comme l’explique Tomsett, «les données peuvent être biaisées de diverses manières: le processus de collecte de données pourrait aboutir à des données mal échantillonnées et non représentatives; les étiquettes appliquées aux données par le biais de décisions antérieures ou d’étiqueteuses humaines peuvent être biaisées; ou des biais structurels inhérents que nous ne voulons pas propager peuvent être présents dans les données. »

« De nombreux systèmes d’intelligence artificielle continueront à être formés à l’aide de mauvaises données, ce qui en fait un problème permanent qui peut entraîner des désavantages systémiques pour les groupes », a-t-il ajouté.

Il serait logique de supposer que la suppression des types de données qui pourraient éventuellement informer des préjugés – tels que l’âge, l’origine ethnique ou l’orientation sexuelle – pourrait contribuer dans une certaine mesure à résoudre le problème. Cependant, les informations auxiliaires ou adjacentes contenues dans un ensemble de données peuvent également servir à fausser la sortie.

Le code postal d’une personne, par exemple, peut révéler beaucoup de choses sur ses caractéristiques ou son identité. Ces données auxiliaires pourraient être utilisées par le produit AI comme proxy pour les données primaires, entraînant le même niveau de discrimination.

Pour compliquer encore les choses, il existe des cas dans lesquels un biais dans un produit d’IA est activement souhaitable. Par exemple, si vous utilisez l’IA pour recruter pour un rôle qui requiert un certain niveau de force physique – comme pompier -, il est judicieux de discriminer en faveur des candidats masculins, car la biologie veut que l’homme moyen soit physiquement plus fort que la femme moyenne. Dans ce cas, l’ensemble de données alimentant le produit AI est incontestablement biaisé, mais de manière appropriée.

Ce niveau de profondeur et de complexité rend l’audit des biais, l’identification de sa source et la classification des données définit une tâche monumentale difficile.

(Crédit image: Shutterstock / Laurent T)

Pour s’attaquer au problème des mauvaises données, les chercheurs ont joué avec l’idée de primes de biais, de style similaire aux primes de bogue utilisées par les fournisseurs de cybersécurité pour éliminer les imperfections de leurs services. Cependant, ce modèle repose sur l’hypothèse qu’un individu est équipé pour reconnaître les préjugés contre tout autre groupe démographique que le leur – une question qui mérite un débat séparé.

Un autre compromis pourrait être trouvé dans la notion d’IA explicable (XAI), qui stipule que les développeurs d’algorithmes d’IA doivent être capables d’expliquer en détail le processus qui conduit à toute décision donnée générée par leur modèle d’IA.

«L’IA explicable devient rapidement l’un des sujets les plus importants dans l’espace de l’IA, et une partie de son attention est sur l’audit des données avant qu’elles ne soient utilisées pour former des modèles», a expliqué Vernon.

«La capacité des outils d’explicabilité de l’IA peut nous aider à comprendre comment les algorithmes ont pris une décision particulière, ce qui devrait nous indiquer si les biais que l’algorithme suit sont problématiques ou non.»

Il semble que la transparence pourrait être la première étape sur la voie de la résolution du problème des biais indésirables. Si nous ne sommes pas en mesure d’empêcher l’IA de discriminer, nous espérons au moins reconnaître que la discrimination a eu lieu.

Sommes-nous trop tard?

La perpétuation du biais algorithmique existant est un autre problème qui mérite réflexion. Combien d’outils actuellement en circulation sont alimentés par des biais importants mais non détectés? Et combien de ces programmes pourraient servir de base à de futurs projets?

Lors du développement d’un logiciel, il est courant pour les développeurs de puiser dans une bibliothèque de code existant, ce qui fait gagner du temps et leur permet d’intégrer des fonctionnalités pré-préparées dans leurs applications.

Le problème, dans le contexte du biais de l’IA, est que la pratique pourrait servir à étendre l’influence du biais, en se cachant dans les coins et recoins de vastes bibliothèques de codes et d’ensembles de données.

Hypothétiquement, si un morceau de code open source particulièrement populaire devait montrer un parti pris contre un groupe démographique particulier, il est possible que la même inclination discriminatoire puisse s’imposer au cœur de nombreux autres produits, à l’insu de leurs développeurs.

(Crédit image: Shutterstock / Andrey Suslov)

Selon Kacper Bazyliński, chef d’équipe AI dans la société de développement de logiciels Neoteric, il est relativement courant que le code soit réutilisé dans plusieurs projets de développement, selon leur nature et leur portée.

«Si deux projets d’IA sont similaires, ils partagent souvent certaines étapes communes, au moins dans le pré et le post-traitement des données. Ensuite, il est assez courant de transplanter du code d’un projet à un autre pour accélérer le processus de développement », a-t-il déclaré.

«Le partage d’ensembles de données open source très biaisés pour la formation en ML permet que le biais se retrouve dans les futurs produits. C’est une tâche que les équipes de développement de l’IA doivent empêcher de se produire. « 

De plus, Bazyliński note qu’il n’est pas rare que les développeurs aient une visibilité limitée sur les types de données entrant dans leurs produits.

« Dans certains projets, les développeurs ont une visibilité totale sur l’ensemble de données, mais il est assez fréquent que certaines données doivent être anonymisées ou que certaines fonctionnalités stockées dans les données ne soient pas décrites en raison de la confidentialité », a-t-il noté.

Cela ne veut pas dire que les bibliothèques de code sont intrinsèquement mauvaises – elles sont sans aucun doute une aubaine pour les développeurs du monde – mais leur potentiel de contribuer à la perpétuation des biais est clair.

« Dans ce contexte, ce serait une grave erreur de … conclure que la technologie elle-même est neutre », lit un article de blog de la société d’intelligence artificielle détenue par qwanturank, DeepMind.

«Même lorsque les préjugés ne proviennent pas des développeurs de logiciels, ils sont toujours reconditionnés et amplifiés par la création de nouveaux produits, ce qui crée de nouvelles possibilités de préjudice.»

Le biais pourrait être là pour rester

«Biais» est un terme intrinsèquement chargé, emportant avec lui une multitude de bagages négatifs. Mais il est possible que les biais soient plus fondamentaux dans notre façon de fonctionner que nous ne le souhaiterions – inextricables du caractère humain et donc de tout ce que nous produisons.

Selon Alexander Linder, VP Analyst chez Gartner, la poursuite d’une IA impartiale est erronée et peu pratique, en raison de ce paradoxe très humain.

«Le biais ne peut jamais être totalement supprimé. Même la tentative de supprimer les préjugés crée ses propres préjugés – c’est un mythe d’essayer même de créer un monde sans préjugés », a-t-il déclaré à TechRadar Pro.

Tomsett, quant à lui, prend une note un peu plus optimiste, mais fait également signe de la futilité d’une aspiration à une totale impartialité.

«Parce qu’il existe différents types de biais et qu’il est impossible de minimiser tous les types simultanément, ce sera toujours un compromis. La meilleure approche devra être décidée au cas par cas, en examinant attentivement les inconvénients potentiels de l’utilisation de l’algorithme pour prendre des décisions », a-t-il expliqué.

« L’apprentissage automatique, par nature, est une forme de discrimination statistique: nous formons des modèles d’apprentissage automatique pour prendre des décisions (pour discriminer entre les options) sur la base des données passées. »

La tentative de débarrasser la prise de décision du parti pris va donc à l’encontre du mécanisme même que les humains utilisent pour prendre des décisions en premier lieu. Sans mesure de biais, l’IA ne peut pas être mobilisée pour travailler pour nous.

Il serait manifestement absurde de suggérer que le biais de l’IA n’est pas un problème auquel il faut prêter attention, étant donné les ramifications évidentes. Mais, d’autre part, la notion d’un ensemble de données parfaitement équilibré, capable de rincer toute discrimination de la prise de décision algorithmique, ne semble guère plus qu’un idéal abstrait.

La vie, en fin de compte, est trop désordonnée. L’IA parfaitement égalitaire est irréalisable, non pas parce que c’est un problème qui nécessite trop d’efforts pour le résoudre, mais parce que la définition même du problème est en constante évolution.

La conception du biais varie en fonction de l’évolution des préférences sociétales, individuelles et culturelles – et il est impossible de développer des systèmes d’IA dans le vide, à l’écart de ces complexités.

Il est essentiel de pouvoir reconnaître une prise de décision biaisée et d’atténuer ses effets néfastes, mais éliminer les biais n’est pas naturel – et impossible.

by Agence Qwanturank