Talekorpus fra høyere utdanning

Prosjektet er del av et samarbeid for å lage et norsk talekorpus med tale fra høyere utdanning. Et talekorpus er i denne sammenhengen en samling av lydfiler som er tekstet mest mulig bokstavelig for å kunne måle og forbedre systemer for automatisk tale-til-tekst. Målet er å få en samling som dekker det viktigste av variasjon i dialekter og måter å snakke norsk på innenfor sektoren.

Hvem deltar med å koordinere og samle inn materiale?

Ca. 10 utdanningsinstitusjoner samarbeider om å lage og samle inn lydfiler fra høyere utdanning. Sikt er med på å koordinere arbeidet. UiO bidrar med løsninger for å samle inn samtykker/tillatelser fra de som bidrar med tale (TSD/Nettskjema) og for å laste opp og behandle filer (Educloud Research). I tillegg har UiO en sekretariatfunksjon som kvalitetssikrer materialet, flytter filene inn i en felles struktur og gjør talekorpuset tilgjengelig for de som skal bruke det.

  • Høgskolen på Vestlandet
  • Høgskolen i Volda
  • Høyskolen Kristiania
  • Nord universitet
  • Norges teknisk-naturvitenskapelige universitet
  • Universitetet i Agder
  • Universitetet i Oslo
  • Norges arktiske universitet
  • Universitetet i Sørøst-Norge
  • Høgskolen i Østfold
  •  Sikt – Kunnskapssektorens tjenesteleverandør

Personopplysninger

Det ferdige talekorpuset inneholder ikke direkte identifiserbare personopplysninger, men inneholder tale som i seg selv er en personopplysning (siden den som taler potensielt kan identifiseres ved hjelp av stemmegjenkjenning). Behandling og overføring av materialet til de som skal bruke det må derfor skje i samsvar med gjeldende personvernlovgivning.

Uavhengig av hvilket behandlingsgrunnlag som benyttes, så må de som deltar med tale gi samtykke/tillatelse til bruk, og samtykket/tillatelsen kan trekkes tilbake i ettertid. I så fall fjernes materialet fra den det gjelder fra talekorpuset.

Hvem gjøres talekorpuset tilgjengelig for?

De som skal bruke talekorpuset må inngå avtaler med undervisningsinstitusjonene som har bidratt med data. Hensikten med bruk av materialet er å forbedre automatisert tale-til-tekst på norsk.

De som har inngått avtaler og kan bruke materialet er:

  • Speechmatics (Cantab Research Limited) i England (personvernside), som blant annet er underleverandør av automatisk tale-til-tekst på norsk i Panopto.
    England, som ikke lenger er innenfor EU/EØS, dekkes av en adekvansbeslutning fra EU-kommisjonen. Overføringen gjøres på grunnlag av en beslutning om tilstrekkelig beskyttelsesnivå, jf. Personvernvforordningen artikkel 45.

Kontakt

Hvis du har spørsmål om dette prosjektet, eller har bidratt med tale og har spørsmål om dine personopplysninger, kan du ta kontakt på e-post taletekst@usit.uio.no

Publisert 7. des. 2022 16:03 - Sist endret 15. des. 2022 11:01