Oppsummering av behovskartleggingen

Visualisering av forskningsprosessen ved IMVVisualisering av forskningsprosessen ved IMV

Oppsummering av hovedfunn

Forskere og forskergrupper ved UiO har mange av de samme utfordringene knyttet til lagring og deling av forskningsdata. Hvordan man har valgt å takle utfordringene varierer fra fagområde til fagområde, og kunne med fordel vært løst på en mer enhetlig måte på tvers av fag- og instituttgrenser.

  • Datagenerering/-innsamling: Store likheter/sammenfall i metodisk tilnærming på tvers av fagområder
  • Lagringskapasitet: En voksende utfordring (ressurskrevende og dyrt) der det genereres mye data fra instrument/utstyr/sensorer
    • Pris en viktig årsak til at noen velger eksterne lagringsløsninger/-tjenester
  • Delingsløsninger brukt ved UiO: Minnepinne, e-post, Dropbox, fellesområde/-disk, Google Drive, andre skytjenester
  • Organisering/Strukturering av mapper og filer: Stor utfordring som ikke er løst. Hver forsker/forskergruppe har funnet sin måte å strukturere filer/mapper, men flere fremhever organisering og gjenfinning av filer og data som en hovedutfordring.
  • Metadata:
    • Hovedsakelig kun det som automatisk genereres av utstyr/instrument
    • Enkelte av forskerne fremhever manglende støtte for metadata som en hovedutfordring i håndtering av data.
  • Behov/Ønsker:
    • Tilgang til felles lagringsområde fra "overalt", og hvor man har (detaljert) tilgangskontroll med versjonskontroll, sikkerhetskopiering og synkronisering
    • Felles lagringsområde må støtte alle plattformer (Linux, Mac, Windows, mobile enheter).
    • Mulighet for enkel deling med eksterne samarbeidspartnere
    • Tilgang til en lokal ressursperson (datakurator, datarøkter, data manager) som kan støtte datainnhenting, -lagring og strukturering
    • Mulighet for enkelt å overføre data fra utstyr/instrument som står i felt
    • Lokalt nett med tilgang til tilstrekkelig/stor lagringskapasitet
    • Lokalt nett med maskiner, utstyr og instrument som ikke automatisk oppgraderes
    • Lokalt nett som kan koples på internett ved behov, f.eks. når utstyr/instrument må feilsøkes/repareres eller oppgraderes av eksterne firma/teknikere
    • Mulighet for å legge til metadata av alle typer på alle nivåer (mapper, filer, osv.)

Innledning

Intervjuene som ligger til grunn for denne behovskartleggingen ble utført mellom 1. og 16. mars 2017 av Safet Amedov, Jarle Ebeling, Martine Eklund og Rikke Julie Foss-Pedersen på oppdrag fra seksjonssjef Gard Thomassen (ITF/UAV/USIT) og Forskningslagringsprosjektet ved UiO (se hovedsiden til prosjektet). (Referat fra hvert enkelt intervju ligger i mappen Intervjuene (kun UiO-tilgang)). Behovskartleggingen er et kvalitativt tillegg til den mer omfattende e-post-kartleggingen av lagringsbehov som ble utført i 2014 (Lagring og deling av forskningsdata) og som ledet til rapporten Dataeksplosjon -- en stor utfordring og en gedigen mulighet.

Intervjuobjektene

De vi intervjuet fordelte seg på fire grupper: forsknings-/avdelingsledere, forskere, PhD-/postdok-studenter og (IT-)teknikere som arbeider tett på forskere/forskergrupper. Alt i alt intervjuet vi 22 personer.

Det er vanskelig å trekke en entydig konklusjon på bakgrunn av så få intervju, men en enda bedre utnyttelse av IT-ressursene lokalt og sentralt synes mulig, f.eks. der mange fag/forskergrupper ved samme fakultet har de samme utfordringene, men hvor man ikke vet hvilke løsninger andre har funnet/utarbeidet for tilsvarende utfordringer.

Det kan synes uheldig at vi ikke fikk intervjuet flere fra HF, Medisin og SV og noen fra Jus og TF. Enda flere av intervjuobjektene kunne med fordel vært personer som daglig jobber direkte med innsamling, lagring og deling av data.

Fagområder

Intervjuobjektene vi snakket med kom fra følgende fagområder/institutt: 

  • Farmasøytisk institutt
  • Institutt for biovitenskap, Seksjon for fysiologi og cellebiologi
  • Institutt for geofag
  • Institutt for informatikk
  • Institutt for klinisk odontologi
  • Institutt for medisinsk genetikk
  • Institutt for musikkvitenskap
  • Institutt for statsvitenskap
  • Kjemisk institutt, Miljøvitenskap
  • Kjemisk institutt, Seksjon for kjemisk livsvitenskap - biomolekyler, bio-inspirerte materialer og bioanalytisk kjemi
  • Kulturhistorisk museum
  • Naturhistorisk museum
  • Psykologisk institutt

Hovedfunn

Forskningsprosessen

På et overordnet nivå er metodene for å innhente empiriske (rå)data temmelig lik tvers på av fagområder ved UiO, enten dataene genereres av instrument, utstyr eller sensorer eller gjennom (maskinell) høsting av data fra databaser, (offentlige) register, Facebook, Twitter eller internett. Unntakene er metastudier og der hvor man laster ned data sammenstilt eller (delvis) analysert av andre.

I de fleste tilfeller deles ikke disse såkalte rådataene utenfor forskergruppen/med andre forskere, bl.a. fordi de krever stor lagringsplass, og dessuten må kvalitetsvurderes og tolkes i lys av både tekniske og ikke-tekniske parameter knyttet til måten dataene er hentet ut på.

Det neste steget, eller fasen, i forskningsprosessen viste seg også å være nokså lik på tvers av fagområder. I denne fasen ble rådataene sammenstilt, analysert, talt opp eller bearbeidet av forskeren. Disse sammenstillingene, analysene eller tellingene er det forskerne deler, og som utgjør de åpne dataene. Hvordan delingen foregår og hvor problematisk det oppleves varierer fra fag til fag.

I sluttfasen av forskningsprosessen etterlyste flere av forskerne bedre måter å tilgjengeliggjøre og/eller presentere dataene på, slik at andre utenfor prosjektet kan nyttiggjøre seg disse. Datasett distribueres gjerne sammen med artikkelen.

Datakurator (data manager [data curation])

Flere av dem vi intervjuet uttrykte et stort behov for støtte fra en (lokal) ressursperson (datakurator, data manager) i forbindelse med innsamling, lagring og kuratering av data. Per i dag kan det virke som verken lokal eller sentral IT ved UiO har kunnskap eller kapasitet til å støtte opp om denne kjernevirksomheten i forskningsprosessen i tilstrekkelig grad.

Lagring og deling av data

Behovet for lagringskapasitet er stor innenfor de områder som benytter utstyr og instrument som genererer masse rådata. Behovet er også stort blant forskerne som jobber med analyse av data de mottar fra andre. Datasettene kan fort mangedobles i størrelse gjennom analyseprosessen. Her er pris et viktig element ved valg av løsning, og gjør at man kjøper, eller vurderer å kjøpe, lagringstjenester utover det UiO tilbyr.

Når data deles, internt og ekstern, av forskere ved UiO benyttes minnepinner, eksterne disker, e-post, Dropbox, Google Drive, andre skytjenester eller et felles diskområde. OneDrive og Vortex benyttes sjelden til lagring og deling av forskningsdata.

En del av forskerne benytter felles diskområde satt opp av USIT/lokal IT for sikkerhetskopiering/arkivering og deling av større mengder data i forskergrupper eller egen organisasjon. Flere av forskerne poengterte at disse fellesområdene fort blir kaotiske, slik at gjenfinnbarheten blir dårlig. Et irritasjonsmoment var at man må gå via lokal IT/USIT for å få satt de riktige rettighetene på mapper og filer.

Nettopp enkel tilgangsstyring var blant hovedargumentene for hvorfor skytjenester som Google Drive og Dropbox benyttes, i tillegg til synkronisering, sikkerhetskopiering, versjonskontroll og støtte for alle plattformer. Dropbox var kanskje løsningen flest benyttet for å dele data med kolleger utenfor UiO, og når forskeren selv vil ha tilgang til "sine" data både på kontoret, hjemme og på reise. Noen av forskerne foretrakk Google Drive framfor Dropbox, fordi førstnevnte har mer detaljert tilgangsstyring, blant annet med mulighet for kun å gi leserett eller kommenteringsrett. Valget av løsning var likevel knyttet til vaner – "alle bruker Dropbox, derfor blir det enklest om jeg også gjør det". Flere av forskerne sier likevel at de gjerne skulle brukt en UiO-basert tjeneste, bl.a. pga. bedre sikkerhet og eierskap til dataene.

Noen forskningsgrupper jobber primært på Abel. Disse forskerne var i stor grad fornøyde.

Lokalnett/Intranett (Instrumentnett)

Det synes å være et stort behov for lokale (lukkede) nett som kopler sammen utstyr og instrument med (Windows-)PCer på en slik måte at PCene ikke oppgraderes automatisk. I dette nettet bør det være tilgang på tilstrekkelig med lagringskapasitet og muligheter for sikkerhetkopiering. Selv om datamaskinene og utstyret i nettet i utgangspunktet er utestengt fra internett, må det være mulig for eksterne teknikere og reparatører å kople seg på enkelt-PCer og utstyr i nettet når det er behov for det. Man bør også kunne enkelt overføre filer fra det lukkede nettet til datamaskiner på internett.

En god del utstyr og instrument på UiO er koplet til frittstående PC-er i laboratorier og spesialrom, hvor man er avhengig av eksterne harddisker og minnepinner for å flytte data over på fellesområder. 

Strukturering og kuratering av mapper og filer

Så og si alle som ble intervjuet reflekterte over utfordringene de har når det gjelder strukturering og gjenfinning av filer. Mange, men ikke alle, hadde utviklet egne, lokale system som styrte hvilke filer som skulle legges i hvilke mapper eller system for navngiving av filer som skulle lette gjenfinning.

I de forskningsprosessene hvor det genereres masse data og mange filer er det en utfordring å rydde (slette) filer i ettertid, og også å passe på at man tar vare på filer (data) når noen slutter eller ved prosjektslutt.

Flere etterlyste i denne sammenheng et system/en løsning for å kunne organisere mapper og filer på en systematisk og oversiktlig måte. Hvordan dette kan gjøres på en enkel måte som ikke medfører merarbeid er en utfordring.

Metadata

Det finnes forskjellige typer metadadata (administrative, sporbarhetsmetadata og format-/fil-spesifikke metadata) man kan kople til forskningsdata. Hvordan man skal kunne automatisere prosessen med knytte disse forskjellige typene av metadata til områder, mapper og filer er per i dag ikke løst.

Samhandling/Samskriving

Gjennom flere av intervjuene fortalte forskerne om behov for å kunne jobbe på de samme filene, noen ganger også parallelt (samskriving). Enkelte av intervjuobjektene snakket om samskriving i Google Docs, både i forbindelse med artikkelskriving og enklere dokumenter som søknader og protokoller. Mer utbredt var det likevel å dele Office-dokumenter på e-post og å benytte funksjonen "spor endringer". Office365 var lite utbredt/kjent, og Vortex ble lite benyttet til data- og dokumentdeling. Vortex ble sett på som en ren publiseringsløsning, ikke en samhandlingsplattform.

(IMV ønsker seg Overleaf (https://www.overleaf.com/).)


 

Emneord: forskningslagring, deling av forskningsdata Av Jarle Ebeling, Rikke Julie Foss-Pedersen, Martine Eklund, Safet Amedov
Publisert 20. mars 2017 17:10 - Sist endret 26. sep. 2017 13:11