====== Entrepôts de données (catalogage des données non géo spatiales) ====== Un entrepôt de données est un outil de **catalogage, de valorisation et de partage**. Il **n'est pas destiné à héberger des bases de données vivantes** (i.e. régulièrement interrogées et mises à jour), ni à **stocker des données** ou à les **archiver**. Le stockage des données vivantes peut se faire dans des bases de données. Contrairement aux données géospatiales qui nécessitent des infrastructures de stockage adaptées, les **données non-géospatiales**, même si elles sont géolocalisées, **ne nécessitent pas d’être lues par un système d’information géographique**. L’IRD et le département INEE (CNRS)- Museum National d'Histoire Naturelle mettent à notre disposition des infrastructures de données qui assurent la double fonction de catalogue (bases de métadonnées) et d’entrepôt (stockage sécurisé), même si elles ne sont pas strictement liées. Ces trois infrastructures utilisent le même outils, [[https://dataverse.org/|Dataverse]], mais chacun à ses propres règles. Nous vous conseillons en première intention, de **déposer vos données sur ces entrepôts institutionnels** en privilégiant celui de la tutelle du principal investigateur de l’étude concernée. D’autres entrepôts généralistes ou spécialisés, gratuits ou payants sont également à votre disposition. Ils sont recensés par [[https://repositoryfinder.datacite.org/|Datacite Repository Finder]] ou [[https://www.re3data.org/|Re3data.org]]. ===== Les entrepôts institutionnels ===== • **CNRS (INEE)** : https://data.indores.fr/ * [[https://data.indores.fr/dataverse/isem|dédié à l'ISEM]] * thématique INEE * bientôt moissonné par l'entrepôt recherche.data.gouv ([[https://entrepot.recherche.data.gouv.fr/dataverse/cnrs|RDG]]) * moissonné par l'entrepôt [[https://www.data-terra.org/donnees-services/entrepot-de-donnees-data-terra/|Easy Data]] de [[https://www.data-terra.org/|DATA TERRA]] * moissoné par le [[https://www.pndb.fr/|{{:scienceouverte:pndb_logo_bandeau.png?200}}]] * connecté aux différents annuaires LDAP de la recherche (EDUGAIN) * possibilité de s'inscrire avec son compte organisme employeur * possibilité de s'inscrire avec un courriel personnel * taille de chaque fichier déposé dans un jeu de données limitée à 2Go * [[https://dataverse-test.in2p3.fr/|entrepôt test InDoRES]] * [[faq#comment_se_connecter_a_l_entrepot_isem_cnrs|Comment se connecter à l'entrepôt ISEM CNRS ?]] **Avant toute publication** d'un jeu de données dans l'entrepôt InDoRES, il est impératif de **compléter sa fiche de métadonnées** dans [[https://www.indores.fr/geonetwork|cat.InDoRES]] en passant par le lien [[https://www.indores.fr/index.php/nouveau-jeu-de-donnees|créer un nouveau jeu de données]]. • **IRD** : https://dataverse.ird.fr/ * auteur principal rattaché à son organisme de tutelle * [[https://dataverse.ird.fr/dataverse/umr_isem|dédié à l'ISEM]] * connecté aux différents annuaires LDAP de la recherche * possibilité de s'inscrire avec son compte organisme employeur * possibilité de s'inscrire avec un courriel personnel * taille de chaque fichier déposé dans un jeu de données limitée à 5Go * [[https://data.ird.fr/mode-demploi/|mode d'emploi IRD]] * [[https://data.ird.fr/wp-content/uploads/2021/02/DataSuds_qualite_depots_202102v23_LD.pdf|guide de dépôt d'un jeu de données dans DataSuds]] • **Université de Montpellier** : https://entrepot.recherche.data.gouv.fr/dataverse/umontpellier * auteur principal rattaché à l'Université de Montpellier * pour déposer si ce n'est pas possible dans un entrepôt thématique ou un entrepôt institutionnel * taille de chaque fichier déposé dans un jeu de données limitée à 2Go * pas d'entrepôt dédié à l'ISEM * obligation de se connecter avec une adresse courriel umontpellier • **CNRS Research Data** : https://entrepot.recherche.data.gouv.fr/dataverse/cnrs * auteur principal rattaché au CNRS * pour déposer si ce n'est pas possible dans un entrepôt thématique ou un entrepôt institutionnel * taille de chaque fichier déposé dans un jeu de données limitée à 2Go * pas d'entrepôt dédié à l'ISEM * obligation de se connecter avec une adresse courriel cnrs • **Recherche Data Gouv** : https://entrepot.recherche.data.gouv.fr/dataverse/root * auteur principal rattaché à son organisme si il n'a pas d'entrepôt institutionnel * possibilité de s'inscrire avec un courriel non CIRAD * taille de chaque fichier de jeu de données limitée à 2Go ===== Les entrepôts externes ===== • **Zenodo** : https://zenodo.org/ * généraliste * gratuit * recommandé par la Commission Européenne * durée de stockage garantie 30 ans * DOI in situ * stockage jusqu'à 50 Go • **Figshare** : https://figshare.com/ * généraliste * gratuit * DOI in situ * stockage 5 Go • **Harvard dataverse** : https://dataverse.harvard.edu/ * généraliste * gratuit * stockage 2 Go • **Dryad** : https://datadryad.org/stash * généraliste * payant * recommandé par de nombreux éditeurs scientifiques * durée de stockage garantie 30 ans * DOI in situ * stockage jusqu'à 300 Go • **Entrepôts thématiques** : * [[https://www.ncbi.nlm.nih.gov/genbank/|GenBank]] (séquences génétiques) * [[https://www.uniprot.org/|UniProt]] (séquences proteiniques) * [[https://www.gbif.org/|GBIF]] (collections botaniques) * IntAct * Movebank * Pangaea * Quetelet * WormBase * MycoBank * … • **Entrepôts des éditeurs scientifiques** : * [[http://esapubs.org/Archive/|Ecological Archives]] (Ecological Society of America) * BioMed Central * Elsevier * … ===== En pratique ===== Un entrepôt de données est une infrastructure destinée au stockage de données numériques et métadonnées (descriptions) associées. Sa mission est d’assurer l’organisation, le signalement, l’accès, l'interopérabilité et le stockage des données, en vue de leur réutilisation. Il permet de sauvegarder des jeux de données et les partager mais ce n'est pas un outil d’archivage à long terme ni un outil collaboratif. ==== Critères de choix d'un entrepôt ==== * Domaine scientifique des données * Notoriété de l’entrepôt * Conditions d’accès à l’entrepôt (ouvert à tous, restreint, sur enregistrement, gratuit/payant) * Conditions de diffusion des données (type de licence de diffusion, limitation à recherche/enseignement ou utilisation commerciale, embargo avant publication, etc.) * Durée du stockage et de la conservation à “long-terme” (conservation pérenne non * systématique). * Valeur ajoutée de l’entrepôt (curation, certification de qualité des données, garantie de * possible réutilisation des données, anonymisation des données, etc.). * Recommandations de votre institution, du bailleur, ou de la revue si vous publiez un article * ou un Data paper avec ses données Pour aller plus loin vous pouvez consulter le guide [[https://r.i.mnhn.fr/mk/cl/f/sh/28xHLtxZQ0KqQgm5Dhvve9VBD634s3POuQ/u-VJHSKfpsn6|Comment bien choisir son entrepôt]] sur HAL ==== Déposer un jeu de données ISEM dans un entrepôt institutionnel ==== * Consulter les conditions d'utilisation pour choisir votre entrepôt * S’inscrire ou se connecter en utilisant de préférence son courriel professionnel * Envoyer un courriel à l’adresse [[isem-data@umontpellier.fr?subject=Entrepôts de données|isem-data@umontpellier.fr]] en précisant sur quel dataverse vous souhaitez déposer vos données et dans quel cadre pour nous permettre de fixer au mieux vos droits de gestion * Suivre les procédures spécifiques du dataverse sélectionné Documentation utilisateur disponible sur [[https://data.isem-evolution.fr/lib/exe/fetch.php?media=scienceouverte:fiches_pratiques:isemcreajeudedonnees.pdf|Comment déposer un jeu de données]]