Le 4 mai 2017, à Saint Herblain, était organisée une conférence sur ce sujet devenu de jour en jour plus important. Le BIG DATA, c'est cette accumulation monstrueuse de données diverses, disparates, dans des formats plus que pléthoriques (deux cents ? plus ?).
Étaient invités quatre érudits dans plusieurs branches, nous reprenons ici leurs noms et qualifications.
Fabrice Benaut, fondateur d'iDeaTrans, président de l'Alliance active data, entre autres casquettes...
Dominique Cardon, sociologue à l'université Paris Est Marne la Vallée, le plus "ancien"
Valentine Ferreol, consultante, présidente d'honneur de l'institut G9+
Nicolas Guy, fondateur de la société SoyHuCe
Un meneur de jeu les invitait à prendre la parole tour à tour, en aiguillant ou en posant les questions si nécessaire.
Le BIG DATA, qu'est-ce physiquement ? C'est une collecte de multiples façons différentes, de données n'ayant généralement aucun rapport les unes avec les autres. Elles sont stockées, dans les grandes villes, sur des supports leur appartenant, essentiellement des disques durs d'ordinateurs, cela permet d'y faire référence rapidement en cas de recherche.
Le plus souvent, ces milliers de milliards de bits sont par commodité déposés via la Toile dans ce qu'on appelle "le cloud", ce lieu informel composé de nombreux datacenters, ce que j'appellerais plus précisément des fermes d'ordinateurs. En effet, les données, il faut les élever, les nettoyer (un intervenant faisait remarquer que souvent la collecte est "sale", pleine d'erreurs diverses), les dompter, les rendre utilisables.
Cela peut être les relevés de pollution d'une ville à différents points, jour par jour, soit grâce à des postes fixes, soit en faisant intervenir des unités mobiles de captage appartenant à des prestataires de service. Cela peut être aussi les comptages de véhicules à différents points, auxquels il faut réagir vite pour par exemple dévier la circulation d'un grand axe soudain obstrué par un accident. Mais aussi, il peut s'agir du remplissage de transports en commun, qu'il faut s'efforcer d'optimiser. Tout est stocké, en vue d'analyse, et tout est dans des formats différents. On notera ainsi que les données fournies par le Linky ont été fort peu abordées, sans doute parce que ce volet est encore trop neuf pour qu'on s'y penche.
Justement, les données collectées par le Linky ont la particularité de présenter un caractère personnel, ce qui oblige à les transmettre dans un format crypté théoriquement robuste. Robustes, sont ceux des échanges de données de santé, militaires, de données industrielles de pointe : bien naïfs seraient les entreprises qui garderaient "sur le cloud" des indications sur leur clientèle, leurs stocks. Certaines, et des grandes, l'ont fait, et n'existent plus.
Le cloud, ce sont de très grosses maisons, mondiales, qui conservent pour un prix modique vos données. Parce qu'elle sont mondiales (et généralement étatsuniennes), elles donnent accès à leur gouvernement à ces données. A part certaines boîtes très spécialisées dans le cloud seul, ce sont bien entendu les GAFAM qui se présentent à tous, et qui collectent "gratuitement" tous les éléments de votre vie. Pas assez de personnes en sont conscientes.
Intervient alors l'algorithme. C'est ce qui va permettre, à partir d'un amas monstrueux et incohérent, de relier des données entre elles pour leur donner un sens, voire une utilisation. Il faut dire que le BIG DATA est caractérisé par ce qu'on appelle les 3 V : la Variété des données, la Vélocité à les collecter et les traiter, le Volume qu'elles représentent.
L'algorithme, alchimie subtile, est comparable à une recette de cuisine où l'essentiel est dans la nuance. Google a bâti sa fortune colossale sur son algorithme de traitement des données, qui permet à partir d'un ou deux mots clefs de s'y retrouver dans une masse énorme d'articles, de photos..... Autant dire que cet algorithme est aussi secret et aussi bien gardé que la composition exacte du Coca-Cola.
L'algorithme permettra sans doute par exemple de croiser les données de la pollution dans tel ou tel lieu, de la météo, de la gestion des transports individuels ou en commun le plus optimisés possible. Il aidera aussi à rechercher les livres traitant d'un sujet méconnu, ou au contraire, banal. Nul doute qu'une entreprise sensée ne s'aventurera pas à confier ses algorithmes au cloud, à ces fermes d'ordinateurs où les grandes sociétés et les États peuvent puiser. Pour donner une idée de ce qu'est une ferme d'ordinateurs, la plus importante de Google comporte un million de machines interconnectées, les unes gérant leurs disques, d'autres moins nombreuses se contentant de servir de nœuds de circulation.
Nul doute que la science, ou l'alchimie, de l'algorithme fera encore des progrès afin d'interconnecter toujours plus des données n'ayant apparemment aucun rapport.
Pour conclure, ce nouveau système est-il un bien ? Est-il un mal ?
Déjà les fermes d'ordinateurs sont à la fois beaucoup plus efficaces qu'autrefois, et en même temps beaucoup moins énergivores même si leur consommation globale correspond à un nombre respectable de centrales électriques dans le monde.
Mais c'est surtout la possibilité, pour chacun, de maîtriser la confidentialité de ses propres données, et de pouvoir les soustraire aux entreprises voraces et aux États tentaculaires, qui reste à parfaire. Trop de gens confient imprudemment toute leur vie à des monstres comme Facebook (impressions écrites, sentiments, photos, vidéos...), des garde-fous solides seront à construire pour que ces entreprises n'aillent pas trop loin. Il est regrettable que, pour le moment, la CNIL n'ait pas plus de pouvoir.
Aucun commentaire:
Enregistrer un commentaire
Si vous souhaitez réagir, c'est ici.