Les lois sur le numérique, votées en 2016, prévoient l’accès aux données publiques et d’intérêt général. Mais tout est fait en pratique pour compliquer la vie des vilains curieux qui voudraient y regarder de près.
Ne vous embarquez surtout pas dans la lecture de cet article sans prendre votre casque pour éviter de vous cogner la tête dans les murs, votre lampe frontale pour aller visiter les recoins les plus sombres des big data gouvernementaux et surtout une grosse poignée de cailloux blancs pour éviter de vous perdre. En 2016, notre François-Hollande-rien-qu’à-nous que le monde entier nous enviait a pu plastronner devant les caméras grâce à sa loi pour une République numérique, parue au Journal Officiel le 8 octobre. En résumé – Sonnez hautbois résonnez musettes ! – une grande démocratie moderne se doit d’être transparente et n’a pas peur de communiquer. C’est ainsi que chaque année 222 données sont collectées sur chacune des 35 419 communes de France. Voilà qui s’annonce passionnant pour les amoureux de la vie publique et autres adhérents de RamDam 64-40 ! Sauf que, depuis 2016, l’État s’est ingénié, une fois les caméras éteintes, à rendre inaccessibles ces données au grand public. Heureusement, grâce à Michel, un ami de RamDam informaticien expérimenté et explorateur téméraire, nous avons pu organiser une visite guidée qui ne manque pas de piquant. Aventuriers de la donnée perdue, saisissez vos sacs à dos et en piste !
https://www.legifrance.gouv.fr/dossierlegislatif/JORFDOLE000031589829/
Identifiant fiscal obligatoire
L’État, d’habitude plutôt prodigue lorsqu’il s’agit de commander des études ou d’éditer une plaquette a décidé de faire très fort. Pour accéder aux données publiques, vous devrez aller sur le site impots.gouv.fr et vous ne pourrez accéder aux données publiques bien cachées tout au fond de l’écran en bas à droite qu’en tapant votre identifiant fiscal. On en connaît qui ont pris la fuite pour moins que cela et il faut donc avoir sacrément la citoyenneté chevillée au corps pour continuer. Heureusement, ceux qui nous suivent ne sont pas trouillards et bien décidés à utiliser à fond leurs droits de citoyens.

Bon voyage parmi 78 millions de cellules possibles
Et n’allez surtout pas vous imaginer parce que la porte s’ouvre que vous êtes au bout de vos peines. Prenez plutôt vos cordes de rappel pour éviter de dévisser. Vous vous retrouvez en effet devant une feuille avec des intitulés tous plus abscons les uns que les autres. Et quand vous cliquez au hasard sur un fichier, il peut atteindre jusqu’à 78 681 018 cellules. De quoi chercher un moment !

Autre mauvaise surprise, les fichiers sont en format CSV, ce qui ne permet pas de faire des recherches, sauf compétences élevées en informatique. Pour Michel notre guide, « aucun doute n’est possible, tout a été compliqué à plaisir pour que seuls les spécialistes puissent s’y retrouver. Ainsi tous les chiffres publiés le sont avec des points, alors que les tableurs et logiciels de traitement des données ne reconnaissent les chiffres qu’avec des virgules. Avant de commencer à travailler sur les tableaux, il faut donc utiliser une fonction recherche/remplace que tout le monde ne maîtrise pas pour redonner un format « normal » aux données. Il est évident que ça a été fait délibérément ».
L’opération prend un certain temps et si vous avez eu la bonne idée d’emporter une thermos de café dans votre sac à dos, elle sera bienvenue, car vous n’êtes pas au bout de vos surprises.
Des en-tête codés
L’exemple des en-têtes de chaque colonne est particulièrement révélateur. Quel est l’intérêt d’avoir des chiffres sous la rubrique « rimpo1 » ou « fdgf », puisque vous ne savez pas à quoi ça correspond ? L’État, sans doute dans le but d’élever le quotient intellectuel moyen des Français, ne dit nulle part qu’il faut télécharger sur le même site un fichier intitulé « Accès aux données maquette communes » qui, comme la clé soigneusement dissimulée derrière la roche va permettre à l’aventurier d’ouvrir la porte secrète. Cette « maquette communes » contient en effet … la traduction des en-têtes.

C’est ainsi que l’on comprend que « dgf » signifie la dotation en millier d’euros, « fdgf » la dotation en euros par habitant et « mdgf » la moyenne de la strate. Vous vous prétendez cultivé et vous ne saviez pas cela ? Heureusement que RamDam 64-40 est là pour vous instruire !
Un désordre savamment organisé
Vous arrivez au bout de vos peines, mais dans cette dernière épreuve, comme à Koh-Lanta, seuls les plus intelligents vont survivre. En effet, le bon sens voudrait que les villes et communes de France soient classées par ordre alphabétique ou par taille. Raté ! Elles sont classées par leur numéro INSEE, Cuvergnon dans l’Oise voisinant avec Elliant dans le Finistère et Wallheim dans le Haut-Rhin. Sans la maîtrise des bases de données permettant de remettre un peu d’ordre dans ce joyeux foutoir organisé, impossible d’aller plus loin.
Et puis, on le sait, l’État, adepte de la transparence bien opaque, n’est jamais très pressé quand il s’agit de tenir ses promesses. Les derniers chiffres publiés remontent à 2018, ceux de 2019 n’étant accessibles qu’à la fin de l’année. Ils n’en demeurent pas moins passionnants… Si on arrive à les classer.
Heureusement Michel, notre Harrison Ford des données numériques, a su vaincre la bête et nous a concocté des infographies fort lisibles pour que vous sachiez tout sur la commune où vous résidez. RamDam 64-40 vous promet donc dans les jours qui suivent de sacrées surprises… Qui plus est totalement lisibles, contrairement à celles de l’État.
Jean-Yves VIOLLIER
Mardi.- Dette par habitant / Biarritz et Mouguerre, les mauvais élèves
Mercredi.- Impôts locaux : très chères grandes villes
Jeudi.- Les frais de personnel par habitant de chaque commune des Pyrénées-Atlantiques.
BRAVO ! Amitiés, Daniel
J’aimeJ’aime
Merci du boulot énorme !
J’aimeJ’aime
Bonjour,
J’apprécie beaucoup votre site que je suis avec assiduité, et souvent avec délice !
Mais certains raccourcis utilisés dans cet article me forcent à réagir.
Le format CSV (https://fr.wikipedia.org/wiki/Comma-separated_values) auquel sont diffusées les données est un standard d’échange dans le numérique. C’est même un format ouvert par rapport au format Xls/Xlsx de Microsoft ©.
Ce format s’ouvre avec un éditeur de texte standard (type bloc-notes), avec LibreOffice/OpenOffice ©, avec Excel ©…mais peut effectivement, selon le logiciel choisi, nécessiter une remise en forme (dans Excel ©, sélectionner la 1ère colonne, puis Onglet Données et bouton Convertir. Choisir ensuite le séparateur à appliquer : l’espace ou la virgule ou le point-virgule ou un séparateur spécifique autre).
Dans ce format, les noms des colonnes sont les noms contenus dans les bases de données (qui n’acceptent pas des noms à rallonge, avec accents, espaces, caractères spéciaux…) et sont donc (quasiment) toujours accompagnés d’une notice de lecture appelée « fiche de métadonnées », donnant la traduction en noms clairs et lisibles par tous.
Concernant le point pour les chiffres à virgule c’est là aussi normal dans ce format. Cela relève aussi des options régionales configurées par défaut sur votre ordinateur (souvent du Windows) et cela peut se paramétrer pour ne pas être embêter à chaque ouverture de fichier et éviter la manipulation, plus ou moins fastidieuse, que vous évoquez..
Enfin, concernant le code Insee dans le fichier évoqué, il ne semble que partiel (est-ce un choix de la DGFiP ?).
En effet, ce numéro d’identification unique d’une commune est composé du code département (sur 2 caractères) et du numéro de la commune (sur 3 caractères).
Ainsi, toutes les communes ‘001’ des départements de France sont distinguables avec le numéro du département : ‘01001’ pour la 1ère commune de l’Ain, ‘02001’ pour la 1ère commune de l’Aisne, etc.
Bonne continuation.
J’aimeJ’aime
À l’évidence, vous êtes plus fort que nous en informatique. mais vous conviendrez avec nous que l’État ne fait pas beaucoup d »efforts pour rendre ces données accessibles à tous.
J’aimeJ’aime
Bonjour, je travaille effectivement dans le domaine informatique et de la donnée. Quand on baigne dans ce milieu, c’est forcément plus évident mais il me semblait opportun de vous signaler (ainsi qu’à vos lecteurs) que ce qui se trouve sur les sites dits d’open data (données ouvertes) est plutôt conforme aux règles de diffusion.
Les données que vous évoquez sont certes complexes et pas toujours faciles d’accès mais cela correspond à un des critères de diffusion des données ouvertes : les diffuser de manière brute, ceci dans le but d’éviter d’introduire un biais par un traitement quelconque.
J’aimeJ’aime