Le gouvernement français a ouvert, en décembre dernier, son portail interministériel data.gouv.fr, relançant le débat sur l »open-data’. En résidence à la Gaîté Lyrique, des étudiants de l’ESAG-Peninghen ont travaillé le semestre dernier sur le thème ‘We Are Data’. Un prêté pour un rendu ?
Fin 2011, l’Institut d’Architecture Avancée de Catalogne a organisé un concours international intitulé ‘City Sense : shaping with real-time data’.
L’architecture, restée longtemps en-dehors du débat sur cet enjeu émergent, vient donc, elle aussi, d’être atteinte par le virus ‘Data’.
Data-écosystème
L »information’ est vieille comme le monde mais, lorsqu’on l’appelle «data», c’est qu’elle se prête à différentes expériences numériques. Parmi elles, le data mining s’appuie sur le constat qu’une masse croissante et déjà gigantesque de données de tous types est disponible. Il nous rappelle que l’enjeu réside désormais moins dans la collecte de ces données que dans leur traitement et dans leur utilisation visant à les rendre signifiantes.
Dans le cas de l’analyse prédictive de données – l’un des modes de data mining – l’idée est que le sens à rechercher ne se situe plus dans chaque donnée en tant que telle mais dans les résultats issus de corrélations massives au sein d’un écosystème de données.
Wikipedia définit l’analyse prédictive des données comme englobant «une variété de techniques issues des statistiques, d’extraction de données et de la théorie des jeux qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des évènements futurs».
Chacun a fait l’expérience de l’analyse prédictive des données, en observant, après avoir entré des mots-clefs dans un moteur de recherches, l’apparition de propositions de mots-clefs complémentaires et de réponses associées.
Lorsque Google, pour n’en citer qu’un, prétend préciser votre recherche à votre place, il s’agit du résultat d’une analyse prédictive de vos données, articulant celles que vous êtes en train de fournir et celles que vous avez produites au cours de vos précédentes visites.
L’analyse prédictive de données permet aussi, de manière plus complexe, de prévoir les épidémies à partir des consultations de sites médicaux croisées avec des données géographiques, d’évaluer le risque associé à un contrat d’assurance à partir de données décrivant le contexte de l’opération et le comportement antérieur de l’assuré, de classer un comportement financier en catégorie normale ou suspecte, entre autres*.
Plus près de nos préoccupations d’architectes et d’urbanistes, des résultats concluants commencent à émerger en matière de modélisation prédictive de l’occupation des sols en contexte agricole intensif sur la base de la couverture hivernale des sols**, de prédiction des crues urbaines et de gestion en temps réel d’inondation, d’anticipation de la fréquentation des établissements culturels – en croisant la modélisation des flux d’étrangers arrivant en France avec le profil des touristes, qui détermine leur système de choix des lieux de visite -.
Un paradigme de l’anticipation
L’analyse prédictive de données postule donc qu’un traitement numérique adéquat permet de faire apparaître un champ de probables plus ou moins précis et donc d’anticiper.
La notion-clef de l’analyse prédictive des données est effectivement celle d’anticipation, par opposition à celle de déduction. L’anticipation se situe dans une logique probabiliste, alors que la déduction s’ancre dans une logique déterministe. L’anticipation – étymologiquement «ante capere» c’est-à-dire le fait de prendre les devants – admet et assume une marge d’erreur. Elle comporte une dose d’hypothèses et de choix arbitraires, voire de fiction (le roman d’anticipation n’est pas un roman de déduction).
Voici en somme un outil qui quasi-superpose les états passés, l’état présent et des esquisses d’états futurs. En d’autres termes, il offre une synthèse instantanée entre un diagnostic et une forme de projet.
Et en urbanisme ?
L’analyse prédictive des données est une question : 1/ de collecte massive de datas, 2/ de traitement algorithmique et probabiliste de celles-ci.
Sur le premier point, la ville est assurément une source gigantesque de données : statistiques démographiques plus ou moins fines, statistiques économiques, sociales, données cadastrales, données de permis de construire et de déclarations de travaux, suivi de collecte et tri des déchets, monitoring des consommations et productions d’énergie, des consommation et traitement de l’eau…
Ces informations sont actualisées dans des espaces-temps plus ou moins longs, variant de plusieurs années à la semaine voire à la journée ou, pour certaines, en temps réel. En matière de production de la ville, elles sont traitées par différents organismes lors d’études à vocation plus ou moins prospective : plan local d’urbanisme, étude de déplacements, plan local de l’habitat, schémas de cohérence territoriale, projets urbains divers.
D’autres données sont captées et traitées en temps réel, comme les déplacements des bus et leur vitesse de parcours, permettant de prévoir leurs délais de passage aux différents arrêts. Cette démarche est pratiquée plutôt par ceux qui n’agissent a priori que marginalement sur la structure de la ville, la considérant comme un support.
Parallèlement, chacun produit presque en continu, consciemment ou non, volontairement ou non, une masse inimaginable de données géolocalisées : via ses recherches sur Internet, son téléphone ou son smartphone avec GPS, via l’utilisation d’applications diverses comme Coyote® ou Tripadvisor, via Twitter ou Facebook, en utilisant les transports en commun, les péages, via les caméras de surveillance…
Ces données-ci sont produites et collectées en temps réel ou en léger différé. Parfois, des scientifiques s’en emparent mais elles sont à ce jour exploitées principalement par des entreprises privées, à des fins commerciales. C’est le phénomène de ‘crowdsourcing’ ou ‘approvisionnement en informations auprès des foules’, qui ne cesse de se développer et de trouver des applications toujours plus diverses.
En résumé, la ville sécrète des données collectées à intervalles longs et utilisées pour agir sur la structure urbaine en profondeur, des données collectées en temps réel et utilisées pour les différents usages de la ville, sans en modifier la «matière» et une masse de données collectées en temps réel mais quasi-inutilisées.
La ville des données existe donc. Reste à définir – à imaginer ? – la «ville de l’analyse prédictive des données».
Claire Bailly
* EPF – 4e année – IAP – Cours de data mining – 4 : Modélisation – page 6/16- Bertrand Liaudet
** Thèse de doctorat en géographie de Samuel Corgne, Costel UMR CNRS 6554 LETG en Cotutelle avec l’ENST-Bretagne , Université de Rennes 2 – Haute-Bretagne
Références :
1. we-are-data.com : travaux des étudiants de l’ESAG dirigés par Bernard Baissait et Pierre-Yvon Carnoy
2. ‘Place de la Toile’, Xavier de la Porte, émission du 4 septembre 2011