L’apprentissage en profondeur révolutionne la médecine. Les algorithmes sont de plus en plus utilisés, allant du tri d’imagerie médicale à la prévision des résultats d’un traitement. Pourtant, alors que les hôpitaux subissent la même révolution de l’IA dans d’autres domaines, les dangers de ses biais et de ses erreurs, ainsi que les conséquences de la médecine sur la vie ou la mort, confèrent un risque unique à ces expériences, suggérant la prudence.

L’analyse de l’imagerie médicale est l’une des utilisations de la grippe aviaire qui connaît la plus forte croissance en médecine. L’analyse humaine des images est lente, difficile à mettre à l’échelle et sujette aux erreurs. Remplacer ou augmenter l’analyse humaine par une analyse algorithmique pourrait même éventuellement permettre aux appareils d’imagerie médicale de diagnostiquer les patients en temps réel et de demander aux techniciens de collecter des images supplémentaires pour affiner le diagnostic alors que le patient ment encore.

Le problème, c’est que les systèmes d’apprentissage en profondeur corrélatifs d’aujourd’hui nécessitent une grande quantité d’images de formation extrêmement diverses, ce qui peut être difficile à acquérir en milieu hospitalier, où les conditions des patients, les données démographiques et les systèmes d’imagerie peuvent être plus uniformes. Le plus dangereusement, les algorithmes d’IA peuvent facilement apprendre des caractéristiques sans rapport avec la maladie elle-même, se prêtant à des faux positifs et des négatifs pouvant entraîner des résultats défavorables pour le patient, voire la mort.

Les voitures sans conducteur sont capables d’utiliser des simulateurs pour générer les innombrables scénarios qu’il est peu probable de vivre dans la vie réelle, mais à ce jour, les systèmes médicaux ont été largement formés à l’utilisation de données réelles plutôt qu’à des simulations d’imagerie.

Les algorithmes d’apprentissage en profondeur sont aujourd’hui des boîtes noires incroyablement fragiles, qui ne permettent pas de comprendre les raisons pour lesquelles ils prennent leurs décisions. Plus important encore, il est presque impossible de déterminer les limites de leur apprentissage et les conditions extrêmes dans lesquelles ils échoueront. Cela signifie que les médecins ont peu de choses à faire pour estimer si un diagnostic automatisé donné se situe bien dans la zone indéterminée de l’algorithme ou s’il est à la limite de ses capacités et risque davantage d’erreurs.

Les expériences d’évaluation automatisées d’aujourd’hui ne sont que cela: des expériences. L’utilisation d’algorithmes d’intelligence artificielle pour évaluer l’imagerie médicale est toujours réalisée principalement dans un contexte de recherche, les diagnostics de la machine n’étant utilisés que pour évaluer ses performances, plutôt que d’augmenter ou de remplacer des experts humains.

Avec le temps, toutefois, ces algorithmes seront de plus en plus utilisés dans les scénarios de production.

L’adoption précoce de ces algorithmes impliquera presque certainement une augmentation humaine, dans laquelle la machine ne fait que suggérer des suggestions pour une révision humaine. Malheureusement, ces systèmes sont généralement rapidement dévolus. Dans les flux de travail d’augmentation, les analystes humains commencent généralement à faire davantage confiance à leurs homologues automatisés qu’à eux-mêmes. Au début, ils peuvent examiner de plus près les résultats automatisés qu’ils ne le feraient même avec un collègue humain, mais avec le temps, ils deviennent complaisants. La vérification prudente est remplacée par un contrôle occasionnel, puis par de brèves vérifications aléatoires.

Au fur et à mesure que les machines génèrent un taux de réussite élevé et que la surveillance et la prudence diminuent, les analystes humains se verront attribuer un volume de contenu de plus en plus important à vérifier, leur laissant de moins en moins de temps pour vérifier chaque image. Les analystes surchargés supposent par défaut que la machine est correcte, s’arrêtant pour ne vérifier que les cas extrêmes.

Plus dangereusement, avec le temps, ces analystes humains commenceront à faire confiance à la machine par rapport à leur propre expérience et à leur intuition en cas de désaccord. Confrontés à un cas extrême où le résultat n’est pas clair, les humains sont plus enclins à se fier à l’algorithme en supposant faussement que sa précision informatisée lui a permis de voir un motif ou un artefact invisible à l’œil humain.

Bien qu’il existe une myriade de solutions pour contrer ces effets, telles que l’insertion d’images aléatoires pour tester la fiabilité inter et intra-codeur au fil du temps, le simple fait est qu’avec le temps, le monde du diagnostic médical sera de plus en plus fragile et imprévisible. Des machines qui fonctionnent parfaitement jusqu’à ce qu’elles tombent en panne de la manière la plus inattendue, provoquant généralement des dommages graves voire la mort chez le patient humain.

Les voitures sans conducteur ont adopté une approche hybride dans laquelle les données réelles d’entraînement sont complétées par des exemples dérivés de simulateurs générant une couverture des scénarios peu susceptibles d’avoir des instanciations physiques suffisantes. Pourtant, même toutes ces données sont finalement associées à des ensembles de règles codées à la main qui régissent les situations les plus importantes de la vie ou de la mort, comme s’arrêter à des panneaux de signalisation. Le fait que les algorithmes d’apprentissage en profondeur soient toujours intégrés à des ensembles de règles codés à la main afin de garantir la fiabilité de leurs comportements les plus importants nous rappelle que, malgré son battage médiatique et son hyperbole, l’apprentissage en profondeur en est encore à ses balbutiements et n’est pas assez mature pour assumer de telles tâches dans leur environnement. ensemble avec une robustesse suffisante lorsque des vies sont en jeu.

En résumé, l’avenir de la médecine sera de plus en plus automatisé. La seule question qui se pose est de savoir comment remédier aux graves faiblesses des algorithmes d’apprentissage en profondeur corrélatifs d’aujourd’hui en ce qui concerne les scénarios de vie et de mort de la médecine.

En fin de compte, un algorithme d’intelligence artificielle qui fait une mauvaise prédiction du film à diffuser ensuite n’a que peu de conséquences. Un algorithme d’intelligence artificielle qui recommande quel traitement nous devrions recevoir repose notre vie sur sa précision.