L’image qui vaut dix mille chiffres

Rubans de chiffres bleus sur fond noir . ©FNS

Avec l’essor du "big data", la visualisation des données est devenue essentielle. Elle nous aide à découvrir des relations cachées qui échappent aux algorithmes. Par Daniel Saraga

​Qu’il s’agisse de statistiques gouvernementales sorties des tiroirs grâce à l’"open data" (l’ouverture des données), d’informations commerciales et financières ou des multiples traces que nous laissons sur Internet, les données disponibles sont de plus en plus volumineuses.

Que faire de cette masse d’informations et comment la transformer en connaissance utile? Basés sur les statistiques, les puissants algorithmes du "data mining" (prospection de données) arrivent à y découvrir des corrélations. L’homme sait, lui aussi, faire parler les données. "Avec une bonne représentation visuelle des informations, notre oeil est capable de déceler rapidement des relations qui échappent aux algorithmes, note Denis Lalanne, chercheur au Département d’informatique de l’Université de Fribourg. C’est, par exemple, le cas pour une tendance, des valeurs hors normes ou encore des groupes de données similaires."

De l’ONU aux taxis new-yorkais

Le chercheur a mis au point, avec son doctorant Ilya Boyandin et son collègue Enrico Bertini, de nouveaux outils pour, notamment, visualiser des flux – des quantités qui vont d’une origine à une destination – et analyser leur évolution temporelle. Publiées sous la forme d’une librairie de logiciels ouverts, les représentations développées à Fribourg ont trouvé une multitude d’utilisations telles l’analyse des montants alloués à l’aide internationale ou l’étude de la chaîne de distribution d’une société de logistique.

"J’ai été surpris par l’écho que nos travaux ont sucité", relève Denis Lalanne. En particulier pour le projet "Flowstrates", réalisé dans le cadre d’une collaboration avec l’ONU afin d’étudier les mouvements de réfugiés entre différents pays. Repris par d’autres usagers, l’outil a été adapté pour scruter la mobilité des travailleurs au Chili et celle des étudiants en Australie, le commerce international des matières premières et même les déplacements de taxis new-yorkais!

Sélectionner pour clarifier

"Les outils existants ne suffisaient pas pour répondre à toutes les questions que pouvait se poser un usager", poursuit le scientifique. Une bonne visualisation n’est en effet pas en mesure de tout représenter, sous peine de produire des graphiques et des cartes illisibles. "Il faut bien comprendre les besoins de l’usager et définir des scénarios d’utilisation concrets afin de pouvoir sélectionner les informations pertinentes", précise-t-il. Interactif, l’outil doit permettre d’explorer facilement les données et d’émettre de nouvelles hypothèses, qui peuvent être vérifiées par la suite à l’aide d’outils statistiques.

"Nous avons comparé les conclusions auxquelles on aboutit en utilisant différentes visualisations. Cela a montré que la manière de présenter l’information influence clairement ce qu’on peut en tirer, explique Denis Lalanne. Notre but est de rester au plus près des données sans distorsion. Mais il est clair qu’une visualisation utilisée à des fins de communication peut facilement orienter un message."

En plein essor, la visualisation des données attire les étudiants. Les informaticiens vont même plus loin et développent des algorithmes de "visual analytics", capables d’analyser eux-mêmes les graphiques générés par d’autres programmes informatiques. Mais pour l’instant, le bon vieil oeil d’homo sapiens reste irremplaçable pour scruter ces torrents d’informations – et ne pas s’y noyer.

Daniel Saraga est un journaliste scientifique qui travaille en tant qu’indépendant ainsi que pour le compte de l’agence LargeNetwork.

(De "Horizons" no 101, juin 2014)