Il comporte 5-6 étapes fondamentales : la planification, le stockage géré par le SR2I, le catalogage, l'entreposage, le partage et la publication. Selon le type de données, ce que vous souhaitez en faire et les nouvelles obligations créées par la loi, chacune de ces étapes peut être utile, mais il n’est pas forcément judicieux de systématiquement vouloir les suivre pour toutes vos données. Il faudra donc faire preuve de discernement en fonction de différents enjeux de conservation, visibilité, valorisation, etc., à discuter avec votre responsable scientifique et avec les référents données de l’unité le cas échéant ( isem-data@umontpellier.fr ), qui eux-mêmes sont en mesure de prendre conseil auprès des référents données des institutions de tutelle d’ISEM.
DoRANum. Enjeux et Bénéfices : Le cycle de vie des données de recherche. 2021.
Il s'agit de rendre vos données visibles en interne et en externe à travers des répertoires (catalogues) de métadonnées (i.e. données décrivant des données). Cela peut concerner des données brutes, mais plus généralement des données secondaires, i.e. qui ont fait l'objet de vérifications et contrôles qualité minimum pour en permettre la réutilisation (données apurées), voire qui sont issues de pré-traitements (p.e. sorties de modèles ou de simulations), et qui généralement ont déjà été utilisées pour une publication scientifique. Les catalogues de données sont souvent associés à des entrepôts de données qui assurent également le stockage sécurisé des jeux de données. Une fiche de métadonnées est associée à une URL (adresse internet), qui devient donc citable et donne éventuellement accès, de manière libre ou contrôlée, au jeu de données lui-même (voir section Partage des données ci-dessous). Ce type de catalogue a vu le jour pour répertorier l'énorme quantité d'images satellites et de produits qui en dérivent (voir p.e. le catalogue Theia pour la France). Mais il existe de nombreux catalogues de données plus ou moins spécialisés qui utilisent des normes ou standards de métadonnées qui leur permettent de se moissonner les uns les autres et donc d'augmenter la visibilité des données. Dans le but de systématiser le catalogage des données de la recherche au-delà des données géospatiales, certaines de nos institutions de tutelle ont mis en place des entrepôts de données, utilisant l'application Dataverse. C'est le cas notamment de l'IRD (https://dataverse.ird.fr/), du CIRAD (https://dataverse.cirad.fr/) et de l'Institut Écologie Environnement du CNRS (INEE) - Muséum national d'Histoire naturelle (https://data.indores.fr/), dont les portails de données permettent le catalogage avec attribution automatique d'un DOI (Digital Object Identifier). Vous pouvez également cataloguer sur ces sites institutionnels des données entreposées ailleurs (i.e. possédant déjà un DOI). Des entrepôts externes, tels que Zenodo ou Dryad, assurent les mêmes fonctions que les entrepôts institutionnels, notamment pour les données associées à des publications ou des projets. NB. que vous choisissiez ou non de mettre vos données en libre accès, le catalogage vous engage de fait à maintenir vos données en état d'être réutilisées, i.e. à les stocker de manière sécurisée et à suffisamment les documenter pour que d'autres que vous puissent s'en servir.
⇒En savoir plus sur le catalogage et entreposage de données non géo-spatiales
L'Open Data a pour but de promouvoir le partage sans entrave des données de la recherche. Nous sommes donc tous fortement incités (pour ne pas dire légalement contraints) à partager librement nos données, notamment lorsqu'elles appuient des résultats publiés. On parle donc plutôt de données secondaires que de données brutes. La restriction d'accès est l'exception qui doit être justifiée. Il peut néanmoins y avoir de bonnes raisons de restreindre l'accès aux données à un petit groupe d'utilisateurs, pour les données sensibles par exemple (données médicales, données personnelles, données de biodiversité soumises au protocole de Nagoya, etc.) ou parce qu'elles ont été co-acquises avec des partenaires étrangers ou privés, non soumis à la réglementation sur l'Open Data. Le Plan de Gestion des Données (PGD) ou Data Management Plan (DMP) est un document formalisé qui décrit la façon dont les données d'un projet sont produites, partagées, préservées et surtout mises à disposition. Il permet d'anticiper la question du partage des données entre les collaborateurs au cours du projet, comme celle de leur ouverture à d'autres utilisateurs à l'issue du projet. L'établissement d'un PGD est obligatoire pour les projets européens dans le cadre de H2020 (y compris pour les ERC) et depuis peu pour les projets financés par l'ANR et le MESRI. Un certain nombre d'outils en ligne, tels DMP-OPIDoR peuvent vous aider à rédiger votre PGD.
Certains jeux de données peuvent être valorisés par eux-mêmes (i.e. indépendamment des résultats qu'ils permettent d'obtenir) par la publication de data papers. Il s'agit de publications scientifiques citables (peer reviewed) qui décrivent les données, détaillent pourquoi, par qui et comment elles ont été récoltées, précisent les protocoles et méthodes d'apurement ou de pré-traitement appliqués, et indiquent les conditions d'accès aux données. Un data paper peut permettre par exemple de reconnaître le travail de collecte de données d'un collectif de collaborateurs dont tous les membres ne participeront pas forcément à l'exploitation scientifique du jeu de données. De nombreuses revues sont dédiées à la publication de data papers (voir p.e. la revue Scientific Data du groupe Nature Research) ou comportent des rubriques spécialisées (p.e. la revue Ecology de l'American Society of America), voire publient des data papers au même titre que d'autres catégories d'articles (voir un exemple dans la revue Global Ecology and Biogeography).
La stratégie de non-cession des droits est un outil au bénéfice des chercheuses et des chercheurs pour conserver suffisamment de droits sur leurs articles scientifiques et ainsi permettre leur mise à disposition en accès ouvert immédiat, quel que soit le modèle de diffusion de la revue dans laquelle ils sont publiés. Elle contribue à garantir une circulation rapide et sans frein de la connaissance, au sein de la communauté scientifique et au-delà.
Cette stratégie est une démarche nouvelle pour les chercheurs. Le Comité pour la science ouverte vous accompagne en vous proposant ce pourrez éventuellement rencontrer.
Diffusé sous licence Creative Commons CC-BY 4.0
Le marché de l'édition scientifique est bien connu pour être dysfonctionnel, le prix moyen d'édition est supérieur au coût réel. Soutenir les revues favorables au milieu universitaire et celui de la recherche publique, est un moyen de contribuer à un système d'édition scientifique plus équitable. C'est pour celà que l'ISEM à mis en place une Base de données des revues adaptées aux milieux, universitaire et à la recherche publique en écologie et évolution (DAFNEE)