Tech

Une IA fait de nouvelles découvertes en étudiant de vieux articles scientifiques

robot in front of chalkboard

Dans une étude publiée dans Nature, le 3 juillet, des chercheurs de la Lawrence Berkeley National Library montrent comment ils ont utilisé un algorithme appelé Word2Vec pour analyser des articles scientifiques et y trouver des liens demeurés invisibles aux humains. L’algorithme a « prédit » de nouveaux matériaux thermoélectriques, des matériaux utilisés dans de nombreux domaines pour le chauffage ou la réfrigération.

L’algorithme ne connaissait pas la définition de « thermoélectrique ». Il n’a pas suivi de cours en science des matériaux. En se servant uniquement d’associations de mots, il a pu dresser une liste d’éventuels nouveaux matériaux thermoélectriques. Certains pourraient être meilleurs que ceux que nous utilisons déjà.

Videos by VICE

Anubhav Jain, chercheur, explique : « L’algorithme peut lire n’importe quel article scientifique, et donc faire des liens qu’aucun scientifique ne pourrait faire. Parfois, il fait même le travail mieux que n’importe quel humain. D’autres fois, il fait ce genre d’associations inter-disciplines. »

Pour habituer l’algorithme à la lecture d’articles anciens, les chercheurs ont étudié le langage de 3,3 millions d’extraits d’articles liés à la science des matériaux. Ils ont ainsi obtenu un glossaire d’environ 500 000 mots. Ils l’ont transmis à Word2Vec, qui s’est servi du machine learning pour faire le lien entre les mots.

« On a entraîné un réseau de neurones à prendre chaque mot et à prédire les mots qui suivraient. En entraînant un réseau de neurones à reconnaître un mot précis, on obtient des représentations de mots qui peuvent nous apprendre des choses. »

En se servant des mots des articles scientifiques, l’algorithme a ainsi pu comprendre les concepts comme la table des éléments, et la structure chimique des molécules. Il a aussi pu relier des mots proches les uns des autres, ou qui étaient liés à des concepts de thermoélectricité, mais qui n’avaient jamais été décrit dans les articles de thermoélectricité étudiés par l’IA. Cette différence de connaissance est difficile à voir à l’œil nu, mais facile à délimiter pour l’IA.

Après avoir démontré sa capacité à fournir les matériaux du futur, les chercheurs ont virtuellement ramené leurs études dans le passé. Ils ont supprimé les données modernes et ont testé l’algorithme sur de vieux articles, pour voir s’il pouvait prédire les découvertes scientifiques avant qu’elles n’aient lieu. Une fois de plus, ça a été le cas.

Dans une expérience, ils ont analysé des articles uniquement publiés avant 2009, et ont pu ainsi prédire l’un des meilleurs matériaux thermoélectriques disponible quatre ans avant sa découverte « officielle » en 2012.

Ce nouvel usage du machine learning dépasse les frontières des sciences des matériaux. Comme l’algorithme n’est pas appliqué sur un ensemble de données spécifiques, on peut facilement l’appliquer à d’autres disciplines comme la littérature, par exemple. Vahe Tshitoyan, le directeur de l’étude, affirme que d’autres chercheurs ont déjà voulu prendre contact avec eux pour en apprendre davantage.

« On ne contrôle pas l’algorithme, il fait les connections tout seul. On pourrait s’en servir à des fins médicales, ou dans la recherche médicamenteuse. L’information est là, nous n’avons juste pas encore fait les liens parce qu’on ne peut pas lire tous les articles. »

VICE France est aussi sur Twitter, Instagram, Facebook et sur Flipboard.