Datamanagement in de Informatiewetenschappen

In de exacte wetenschappen worden vaak grote hoeveelheden data van uiteenlopende aard geproduceerd: gegevens uit verschillende soorten meetapparatuur, beeldbestanden, databases, simulaties, statistische gegevens, geografische data, spreadsheets, etc. Maar ook data bij publicaties zoals (Open) Office documenten, CSV-bestanden, html, pdf.

Om deze gegevens op de lange termijn vindbaar, toegankelijk en begrijpelijk te houden, is het gewenst de opslag, het delen en archiveren van deze bestanden goed te organiseren en documenteren. Het verantwoord opslaan van en omgaan met onderzoeksgegevens wordt aangeduid als onderzoeksdatamanagement (research data management, RDM).

Data Management Plan

Een eerste stap bij verantwoord data management is het opstellen van een Data Management Plan (DMP). Hierin beschrijft of beschrijven de onderzoeker(s) welke soorten data verzameld gaan worden, hoe en waar de data worden opgeslagen, en wie er toegang tot de data mag krijgen. Een DMP wordt steeds vaker verplicht gesteld bij het indienen van een subsidieaanvraag voor een onderzoeksvoorstel.

Op de pagina Datamanagementplan kun je vinden welke vragen in een DMP moeten worden beantwoord. Ook zijn er links naar modellen, checklists en online DMP tools die kunnen helpen bij het opstellen van een DMP.

Op de website van de Universiteit van Wageningen zijn een template en voorbeeld Data Management Plans te vinden van PhD onderzoek op het gebied van eco-hydrologische en eco-toxicologie.

N.B.: Het opstellen van een DMP dient door de onderzoekers zelf te gebeuren, vanuit de bibliotheek kan een informatiespecialist advies en hulp bieden bij het opstellen ervan.

Metadata

De gegevens die vastgelegd worden bij het produceren van ruwe data worden aangeduid als metadata. Het gaat om informatie die bijvoorbeeld omschrijft wie de data heeft verzameld, waar, wanneer, om welke soort data het gaat, binnen welk onderwerpen ze vallen, etc. Ook bij het deponeren van een dataset in een data-archief zal gevraagd worden om het invullen van meer of minder gegevens die de dataset beschrijven. Een veel gebruikte standaard voor metadata is Dublin Core. Deze standaard biedt een ruime keuze uit velden en is geschikt voor vele soorten data.

Een aantal disciplines hanteert eigen standaarden:

Een uitgebreid overzicht voor alle disciplines staat op de website van het Digital Curation Center.

De indiener van een dataset zorgt voor het toevoegen van de metadata. Vanuit de bibliotheek kan een informatiespecialist helpen bij het selecteren van de meest geschikte metadata.

Opslag van onderzoeksdata

Voor de opslag van data maken sommige onderzoeksgroepen gebruik van een eigen server, een ruimte op de gemeenschappelijke netwerkschijf of losse externe harde schijven.

UvA

Vanuit ICTS/UB loopt een project RDM Opslag waarin de mogelijkheden worden onderzocht om voor onderzoekers een omgeving te creëren om onderzoeksdata op te slaan, zelfstandig te beheren en te delen.  Aan een pilot met B2share vanuit het door de EU gefinancierde EUDAT-initiatief doet een onderzoeksgroep van HIMS mee. 

4TU.ResearchData

4TU.ResearchData is het samenwerkingsverband van de drie technische universiteiten in Nederland. Onderzoekers van de UvA kunnen gebruik maken van 4TU.ResearchData voor de lange termijn archivering van de data. Het 3TU.Datacentrum archief biedt de volgende diensten:

  • Self-uploads van datasets naar het data-archief. Dit zijn enkelvoudige datasets, d.w.z. 1 beschrijving met 1 databestand waaraan 1 Digital Object Identifier (DOI) wordt toegekend.De databestanden dienen met de beschrijving via een web uploadformulier (inloggen met UvAnetID) te worden aangeleverd.
  • Speciale data collecties deponeren in het data-archief. Dit kunnen grote databestanden zijn die op een andere wijze dan via een web uploadformulier worden aangeleverd maar ook kan een speciale collectie uit meerdere datasets en andere beschrijvingen bestaan (bijv. van meetapparatuur, locatie en/of periode).

Voor het deponeren van speciale collecties en grotere hoeveelheden data (> 20GB) sluiten wordt met partijen een aparte overeenkomst afgesloten. Deze partijen worden elk jaar belast voor de totale hoeveelheid in het data-archief gedeponeerde data in het betreffend jaar tegen het voor dat jaar geldende tarief. De nieuwe tarieven zijn op dit moment nog niet definitief vastgesteld maar zullen vergelijkbaar zijn met de tarieven van DANS en Vancis.

4TU.ResearchData kent het Data Seal of Approval. Het Data Seal of Approval garandeert duurzame opslag van de datasets volgens internationale normen.

Dryad

Dryad is een digitale repository voor het opslaan van data die horen bij wetenschappelijke publicaties. Dryad is ontstaan uit een initiatief van een groep van tijdschriften en wetenschappelijke organisaties op het gebied van de evolutionaire Biologie en Ecologie. De kosten zijn afhankelijk van het tijdschrift waarin het artikel wordt gepubliceerd.

Figshare

Figshare is een repository waar onderzoekers hun onderzoekoutput beschikbaar kunnen maken in een citeerbare, deelbare en vindbare manier. Geschikt voor het tijdelijk opslaan en beschikbaar stellen van kleinere hoeveelheden data. Gratis tot 1 GB data en slechts enkele gebruikers. Voor grotere hoeveelheden data en gebruikers is er een pricing plan.

TAIR

The Arabidopsis Information Resource  (TAIR) is bedoeld voor opslag van genetische en moleculair biologische informatie van de model hogere plant Arabidopsis thaliana (Zandraket). De UvA betaalt een jaarlijkse bijdrage ter ondersteuning.

Overige data-archieven

Data-archieven zoals bijv. Ecological Archives (ESA, ecologie), GitHub (software), The University of Florida Sparse Matrix Collection (wis- en natuurkunde) en andere zijn te vinden via registers van data-archieven.

Uitgevers

Een groeiend aantal uitgevers van wetenschappelijke tijdschriften stelt als voorwaarde dat de onderzoeksdata die aan een artikel ten grondslag liggen vrij beschikbaar zijn, zowel tijdens het publicatieproces (peer review) als daarna. 

Hoe kom ik aan een DOI voor mijn data?

Persistente identifiers (zoals DOI) zijn unieke id's voor digitale objecten. Ze blijven gedurende de gehele levenscyclus van gegevens verbonden met de objecten en hebben als functie om de voorwerpen te identificeren, ongeacht de plaats van opslag en de duur van de bewaartermijn. Naast DOI’s voor publicaties worden ook DOI’s toegekend aan data. Onderzoeksgegevens waaraan DOI’s worden toegewezen moeten zich bevinden in erkende datacenters of repositoria.

DOI’s voor datasets worden toegewezen door DataCite, een International Consortium for data citation. In Nederland is de TU Delft de vertegenwoordiger voor DataCite. DataCite Nederland werkt niet met individuele onderzoekers. Organisaties die mee willen doen aan het DOI systeem moeten een account aanvragen bij DataCite Nederland, waarna een unieke prefix aan de organisatie wordt toegekend (bijv. 10.5117 voor Amsterdam University Press). De organisatie kan daarna eigenmachtig suffixen aan hun digitale objecten toekennen, zolang gegarandeerd wordt dat deze uniek zijn. DataCite vereist een minimum set van metadata voor elke uitgegeven DOI. Deze metadata worden centraal opgeslagen en openbaar gemaakt via geschikte portals.

Buiten Amsterdam University Press zijn er (nog) geen andere DOI toekennende organisatieonderdelen binnen de UvA. Voor meer informatie kan contact worden opgenomen met de bibliotheek van de TU Delft.

Ondersteuning

Met vragen over onderzoeksdatamanagement binnen de vakgebieden Biologie, Informatica of Logica kun je terecht bij dhr. drs. G.H. (George) Meerburg. Hier kun je ook advies krijgen bij het opstellen van een DMP, het selecteren van een geschikte metadatastandaard of repository voor uw onderzoeksdata. 

  • dhr. drs. G.H. (George) Meerburg

    Informatiespecialist Biologie, Informatica en Logica

    G.H.Meerburg@uva.nl | T: 0205256643

    Ga naar detailpagina

Gepubliceerd door  RDM support

4 mei 2017