Un assistant dans les pattes

14/06/2017

Des startups proposent des algorithmes "intelligents" pour mieux gérer la littérature scientifique. Ces outils doivent encore faire leurs preuves. Par Sven Titz

(De "Horizons" no 113 june 2017)​​​​​​

​Im Après les échecs, le poker et les voitures autonomes, les machines intelligentes s'attaquent à l'une des activités humaines les plus complexes: la recherche scientifique. Des algorithmes doivent filtrer les millions de publications scientifiques apparaissant chaque année et faciliter leur évaluation par peer review.

Corrélations trompeuses

Les entreprises commercialisant ce genre de produits semblent pécher par excès d'optimisme. La startup norvégienne Iris promet d'améliorer la recherche d'études scientifiques pertinentes. A partir d'un article donné, son interface livre des centaines de résultats classifiés par "concepts-clés". Mais une partie des résultats ne vaut rien: l'algorithme a établi des liens entre des concepts qui n'ont rien à voir entre eux.

Semantic Scholar, un moteur de recherche de littérature scientifique, existe depuis deux ans. Conçu en Californie par l'Allen Institute for Artificial Intelligence, il utilise l'apprentissage automatique afin d'identifier les concepts scientifiques dans les textes, pour l'instant dans les domaines de l'informatique et des neurosciences. Paul Ginsparg de l'Université Cornell, un co-fondateur de la plate-forme de preprint scientifiques Arxiv, met en avant une qualité de Semantic Scholar: il ne prend pas seulement en considération le nombre de citations d'un article, mais aussi leur importance, à savoir qui a mentionné une étude et dans quel contexte. Une méthode "qui devrait s'avérer plutôt utile".

Les moteurs de recherche intelligents tels que Semantic Scholar ou Sparrho se basent essentiellement sur les banques de données de littérature académique Google Scholar et Pubmed. Ils ont été rejoints ces derniers mois par des produits similaires, Microsoft Academic et Recommended de Springer Nature.

Retracer l'évolution des concepts

D'autres sociétés sont plus ambitieuses. A Toronto, la startup Meta développe son propre procédé pour scanner la littérature spécialisée avec des réseaux de neurones à plusieurs couches. Il serait à même de retrouver l'origine d'un concept scientifique, en remontant dans le temps à travers tout un champ de recherche, affirme la société. Un produit destiné à l'industrie pharmaceutique, aux éditeurs, aux instituts de recherche et aux autorités. Une partie des algorithmes ont été créés par la société qui a développé le logiciel de Siri, l'assistant vocal d'Apple. Meta a été récemment rachetée par l'Initiative Chan Zuckerberg. Mais Meta reste encore une boîte noire aux yeux des experts, que ce soit Jana Koehler de la Haute école de Lucerne ou Peter Flach de l'Université de Bristol: ils disent manquer d'informations pour l'évaluer.

Des formes élémentaires d'intelligence artificielle sont déjà utilisées pour évaluer des publications scientifiques. Peter Flach et ses collègues ont développé le programme open source Subsift pour trouver des experts compétents afin de juger un article. Les algorithmes cherchent les concordances dans le vocabulaire décrivant à la fois les articles et les experts. Pour le chercheur de Bristol, c'est une défi considérable de concevoir des logiciels qui vont au-delà des fonctions courantes telles que la concordance ("matching"): "La difficulté est d'intégrer de manière pertinente les compétences particulières des humains."

Le journaliste scientifique indépendant Sven Titz habite Berlin.