opendatArchives : un tout jeune projet, démarré à l’été 2019.

Les archives sont des projets de longue haleine, qui ne révèlent leur potentiel que sur le long terme. Quelques semaines seulement d’archives ne permettent pas encore de se faire une idée de l’utilité de conserver ce qui est aujourd’hui largement disponible.

Voici une feuille de route, qui évoluera sûrement beaucoup !

Ce qui a déjà été fait

Depuis cet été, des scripts d’archivage et historisation tournent pour la plupart quotidiennement. Près de 5To de données ont été initialement archivés et sont désormais historisés.

Le volume moyen supplémentaire quotidien est de l’ordre d’1Go (compressé bien sûr).

On peut consulter cette archive très « brute » sur http://files.opendatarchives.fr/

Des metadonnées à harmoniser

Elles sont au format natif de la plateforme archivée, ce qui veut dire que leur structure n’est pas homogène bien qu’ils soient tous en json.

C’est une harmonisation au format dcat définit par le W3C qui semble la plus adaptée. C’est le prochain chantier et il est prioritaire !

Chercher un jeu de données

Une fois les metadonnées harmonisées, elles pourront être mise en base de données afin de permettre des recherches pour trouver un jeu de données et ses différentes versions.

Lier les données

L’idée est d’explorer le contenu des jeux de données et de détecter le plus automatiquement possible ce qu’on y trouve, champ par champ.

Détecter d’une colonne contient un code SIRET, une adresse, ou des coordonnées géographique, permet par la suite le les lier à d’autres jeux de données possédant le même type de champ.

Ouvrir la contribution

Pour l’instant, opendatArchives fonctionne de façon très automatique en moissonnant les portails répertoriés.

Deux modes de contribution sont à mettre en place:

  • le signalement de portails ou site publiant des données et pas encore pris en compte,
  • la possibilité de déposer des données que l’on a archivé soit même et qui ne sont plus disponible en ligne.

Leave a comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *