Ceci est une ancienne révision du document !
Table des matières
Entrepôts de données (catalogage des données non géo spatiales)
Un entrepôt de données est un outil de catalogage, de valorisation et de partage.
Il n'est pas destiné à héberger des bases de données vivantes (i.e. régulièrement interrogées et mises à jour), ni à stocker des données ou à les archiver. Le stockage des données vivantes peut se faire dans des bases de données.
Contrairement aux données géospatiales qui nécessitent des infrastructures de stockage adaptées, les données non-géospatiales, même si elles sont géolocalisées, ne nécessitent pas d’être lues par un système d’information géographique. L’IRD et le département INEE (CNRS)- Museum National d'Histoire Naturelle mettent à notre disposition des infrastructures de données qui assurent la double fonction de catalogue (bases de métadonnées) et d’entrepôt (stockage sécurisé), même si elles ne sont pas strictement liées. Ces trois infrastructures utilisent le même outils, Dataverse, mais chacun à ses propres règles. Nous vous conseillons en première intention, de déposer vos données sur ces entrepôts institutionnels en privilégiant celui de la tutelle du principal investigateur de l’étude concernée. D’autres entrepôts généralistes ou spécialisés, gratuits ou payants sont également à votre disposition. Ils sont recensés par Datacite Repository Finder ou Re3data.org.
Les entrepôts institutionnels
• CNRS (INEE) : https://data.indores.fr/
- thématique INEE
- bientôt moissonné par l'entrepôt recherche.data.gouv
- connecté aux différents annuaires LDAP de la recherche (EDUGAIN)
- possibilité de s'inscrire avec son compte organisme employeur
- possibilité de s'inscrire avec un courriel personnel
- taille de chaque fichier déposé dans un jeu de données limitée à 2Go
Avant toute publication d'un jeu de données dans l'entrepôt InDoRES, il est impératif de compléter sa fiche de métadonnées dans cat.InDoRES en passant par le lien créer un nouveau jeu de données.
• IRD : https://dataverse.ird.fr/
- auteur principal rattaché à son organisme de tutelle
- connecté aux différents annuaires LDAP de la recherche
- possibilité de s'inscrire avec son compte organisme employeur
- possibilité de s'inscrire avec un courriel personnel
- taille de chaque fichier déposé dans un jeu de données limitée à 5Go
• Université de Montpellier : https://entrepot.recherche.data.gouv.fr/dataverse/umontpellier
- auteur principal rattaché à l'Université de Montpellier
- pour déposer si ce n'est pas possible dans un entrepôt thématique ou un entrepôt institutionnel
- taille de chaque fichier déposé dans un jeu de données limitée à 2Go
- pas d'entrepôt dédié à l'ISEM
- obligation de se connecter avec une adresse courriel umontpellier
• CNRS Research Data : https://entrepot.recherche.data.gouv.fr/dataverse/cnrs
- auteur principal rattaché au CNRS
- pour déposer si ce n'est pas possible dans un entrepôt thématique ou un entrepôt institutionnel
- taille de chaque fichier déposé dans un jeu de données limitée à 2Go
- pas d'entrepôt dédié à l'ISEM
- obligation de se connecter avec une adresse courriel cnrs
• Recherche Data Gouv : https://entrepot.recherche.data.gouv.fr/dataverse/root
- auteur principal rattaché à son organisme si il n'a pas d'entrepôt institutionnel
- possibilité de s'inscrire avec un courriel non CIRAD
- taille de chaque fichier de jeu de données limitée à 2Go
Les entrepôts externes
• Zenodo : https://zenodo.org/
- généraliste
- gratuit
- recommandé par la Commission Européenne
- durée de stockage garantie 30 ans
- DOI in situ
- stockage jusqu'à 50 Go
• Figshare : https://figshare.com/
- généraliste
- gratuit
- DOI in situ
- stockage 5 Go
• Harvard dataverse : https://dataverse.harvard.edu/
- généraliste
- gratuit
- stockage 2 Go
• Dryad : https://datadryad.org/stash
- généraliste
- payant
- recommandé par de nombreux éditeurs scientifiques
- durée de stockage garantie 30 ans
- DOI in situ
- stockage jusqu'à 300 Go
• Entrepôts thématiques :
- GenBank (séquences génétiques)
- UniProt (séquences proteiniques)
- GBIF (collections botaniques)
- IntAct
- Movebank
- Pangaea
- Quetelet
- WormBase
- MycoBank
- …
• Entrepôts des éditeurs scientifiques :
- Ecological Archives (Ecological Society of America)
- BioMed Central
- Elsevier
- …
En pratique
Un entrepôt de données est une infrastructure destinée au stockage de données numériques et métadonnées (descriptions) associées. Sa mission est d’assurer l’organisation, le signalement, l’accès, l'interopérabilité et le stockage des données, en vue de leur réutilisation. Il permet de sauvegarder des jeux de données et les partager mais ce n'est pas un outil d’archivage à long terme ni un outil collaboratif.
Critères de choix d'un entrepôt
- Domaine scientifique des données
- Notoriété de l’entrepôt
- Conditions d’accès à l’entrepôt (ouvert à tous, restreint, sur enregistrement, gratuit/payant)
- Conditions de diffusion des données (type de licence de diffusion, limitation à recherche/enseignement ou utilisation commerciale, embargo avant publication, etc.)
- Durée du stockage et de la conservation à “long-terme” (conservation pérenne non
- systématique).
- Valeur ajoutée de l’entrepôt (curation, certification de qualité des données, garantie de
- possible réutilisation des données, anonymisation des données, etc.).
- Recommandations de votre institution, du bailleur, ou de la revue si vous publiez un article
- ou un Data paper avec ses données
Déposer un jeu de données ISEM dans un entrepôt institutionnel
- Consulter les conditions d'utilisation pour choisir votre entrepôt
- S’inscrire ou se connecter en utilisant de préférence son courriel professionnel
- Envoyer un courriel à l’adresse isem-data@umontpellier.fr en précisant sur quel dataverse vous souhaitez déposer vos données et dans quel cadre pour nous permettre de fixer au mieux vos droits de gestion
- Suivre les procédures spécifiques du dataverse sélectionné
Documentation utilisateur disponible sur Comment déposer un jeu de données