Dansk Magisterforening

En åben dansk sprogbank kan blive til digitalt iværksætteri

© Foto: Colourbox

Af Lasse Højsgaard
Del artikel:

Med tilstrækkelig mange lyd- og tekstdata vil Jens Otto Kjærum kunne lave en robot, der laver taleoptagelser om til tekst. Men den slags data er enten dyrt eller svært at få fat på. Derfor skal staten oprette en sprogbank, anbefaler ny rapport.

Hvor mange timer, der hvert år går med at studerende, forskere, journalister, oversættere, sekretærer og andre sidder og transskriberer lydoptagelser fra møder og interviews, er ikke godt at vide. Men at det er mange er hævet over enhver tvivl. En kedelig arbejdsopgave, som de fleste nok gerne ville slippe for.

Og det kan sagtens blive virkelighed. Teknologien findes allerede, fortæller Jens Otto Kjærum, ejer af virksomheden Dictus, der laver talegenkendelsesteknologi. Han mangler dog noget, for at kunne gøre det: sprogdata. Rigtig mange sprogdata.

”Jeg tror, vi får henvendelser om det hver uge. Men vi må bare skuffe dem med, at den form for talegenkendelse kan vi ikke levere endnu. Der mangler en hel del”, siger han.

Men den udvikling skal nu have en hjælpende hånd. Det mener Sprogteknologiudvalget, der står bag en rapport om dansk sprogteknologi – ’sprogteknologi i verdensklasse’ – der udkom i slutningen af april.

Rapporten konstaterer, at der er behov for god sprogteknologi på dansk - chatbots, taleassistenter, tekstanalysesystemer, automatisk oversættelse – men at udviklingen af dette er en meget stor udfordring for de virksomheder, der beskæftiger sig med det. Udgifterne er simpelthen for høje i forhold til, hvad der kan tjenes hjem.

Konklusionen er derfor, at staten må træde til og give en hjælpende hånd med at skabe de sprogressourcer, som virksomhederne har brug for.

Ikke nok med Siri
Sprogressourcer er dels sprogværktøjer (ordbøger og lignende) og dels data, som computerprogrammer bruger til at lære, hvordan ord lyder, og hvad de betyder. Der er groft sagt to slags data: lydoptagelser og tekster, som i samlet form kaldes henholdsvis lydkorpus og tekstkorpus. Opskriften er simpel: jo flere data, jo bedre læring.

”Man bruger kunstige neurale netværk til at bygge nogle modeller. Hvis du for eksempel skal have et neuralt netværk til at genkende, om nogle billeder forestiller katte eller hunde, viser du den en masse billeder og fortæller, om der er en hund eller kat på. Men i en akustisk model har vi en masse lydoptagelser med fonetisk markering af lydene, som man kan træne sit neurale netværk med”, fortæller Jens Otto Kjærum.

Talegenkendelse er allerede udbredt. I dag behøver man ikke indtaste søgeord i Google – man kan bare sige ordene. Og har man et Apple-product er ’Siri’ altid klar til at svare på spørgsmål eller til en lille, venskabelig konversation. Men den talegenkendelse holder kun til at kunne forstå de mest generelle termer. Skal man bruge talegenkendelsen professionelt, skal der ifølge Jens Otto Kjærum en specialløsning, lavet på baggrund af et særligt lydkorpus, der i særlig grad indeholder ord, der bruges på det område, talegenkendelsen skal bruges til.

”Vi har for eksempel lavet en løsning for Post Nord. Efter de har været nødt til at lægge om, står der en i Hjørring og talesorterer til hele Nordjylland. Postsortereren læser op: Spættevej 14 i Hjørring, og så siger computeren: det skal være rute 652”, fortæller han.

Han nævner også et talegenkendelsesprogram leveret til psykiatrien.

”Her er det ikke nok med en Siri eller en google, for der er en masse fagtermer, medikamenter og speciel sprogbrug. Den sprogmodel kan kun findes i den verden”.

Sommerfulgevinger eller sommerfuglefinger?
For at træne en model i at analysere og genkende ord og sætninger inden for et område, bruger man også rene tekster – et tekstkorpus. Ved at lade modellen gennemgå en masse tekster inden for et område, lærer den sig den sprogbrug, som er almindelig her.

Jens Otto Kjærum nævner som eksempel et tekstkorpus opbygget af tekster fra det biologiske område, hvis det er her, talegenkendelsen skal bruges.

”Så hvis modellen ikke kan bestemme et ord akkustisk, kan den vide på baggrund af algoritmen fra tekstkorpusset, at der er større sandsynlighed for en person sagde ’sommerfuglevinger’ end ’sommerfuglefinger’”.

Og her er det så, at Jens Otto Kjærum og hans kolleger, der arbejder med talegenkendelse, løber ind i udfordringer. For både lydkorpusser og tekstkorpusser er ikke noget, man bare henter ned fra nettet. Enten skal man finde noget, man kan bruge. Eller også skal man lave det selv. Begge dele er tidsskrævende og dermed også dyrt.

De tre primære lydkorpusser, som Kjærum savner, er med taleoptagelser med børn, tale i telefon-kvalitet samt det, han kalder spontantale – altså optagelser af samtaler. Sidstnævnte er det, man først og fremmest har brug for, hvis man vil lave talegenkendelse af almene interviews.

Brug for åben sprogbank
Men også tekster er en større mangelvare, end man umiddelbart skulle tro. Rigtig mange tekster er beskyttet af ophavsret eller kan ikke udleveres på grund af GDPR-reglerne. For eksempel ligger der rigtig meget brugbart tekstmateriale i offentlige databaser. Men det er sjældent noget, Jens Otto Kjærum kan få lov at bruge.

”Det kunne være en stor hjælp, hvis det offentlige kunne frigive digitale tekster, de har liggende. Det kunne eksempelvis være tekster fra en socialforvaltning eller en teknsk afdeling. Men meget er omfattet af ophavsretttigheder, og så er der den her GDPR-frygt. Man tør jo simpelthen ikke frigive noget som helst. Og så vil man hellere lade være”.

I forbindelse med rapporten ’Sprogteknologi i verdensklasse’ har Dansk Sprognævn lavet et overblik over tilgængelige sprogressourcer – 129 i alt. Et eksempel på dette er Folketingstidende, der har en base med transskribering af taler holdt i Folketinget mellem 2009 og 2017 – 40 millioner ord i alt. Det er dog langt fra alle ressourcer, der er frit tilgængelige. Meget kan kun tilgås mod betaling eller har andre restriktioner. Og ressourcerne ligger i øvrigt spredt for alle vinde.

Jeg mener, at for det danske sprog er det her en væsentlig og nødvendig satsning. Ellers risikerer vi at gå glip af de automatiserings- og effektiviseringsmuligheder. Jens Otto Kjærum, producent af sprogteknologi

Og her er det altså, at staten skal træde til og, som det hedder i udvalgets anbefalinger, oprette en sprogbank, der ”skal understøtte udviklingen og vedligeholdelse af danske produkter baseret på sprogteknologi og kunstig intelligens, bl.a. ved at gøre danske sprogresurser og sprogværktøjer frit tilgængelige, herunder en dansk termbank”.

For at sørge for dette, skal der ifølge udvalget oprettes en organisation som har til opgave at koordinere indsatsen for dansk sprogteknologi. Og så skal uddannelse og forskning inden for sprogteknologi i øvrigt styrkes, anbefaler udvalget.

Under udvalgets anbefalinger nævnes også specifikt det, Jens Otto Kjærum efterlyser, nemlig at offentlige institutioner skal have ”mere fokus på at de ved at stille sproglige data til rådighed kan være med til at sikre brugen af dansk på alle samfundsområder”.

Stort vækstpotentiale
Og hvad skal det så koste? Det har udvalget også et bud på. I rapporten foreslås det, at der afsættes i alt 87,6 millioner kroner over fire år. 55,6 millioner skal gå til etablering af selve sprogbanken – dels til organisationen, dels til udvikling af sprogressourcerne. De øvrige 32 millioner skal gå til uddannelse og især forskning i sprogteknologi.

Men de penge vil være godt brugt, anslås det i rapporten. Med en sprogbank vil omsætningen i markedet for dansk sprogteknologi vil nemlig stige kraftigt – i bedste fald til over 1 milliard kroner – alene i de kommende år, hedder det i rapporten.

Jens Otto Kjærrum har selv siddet med i Sprogteknologiudvalget. Han så gerne, at staten investerer endnu flere penge end de forslåede, men dette er en start.

”Med 20 millioner om året kommer man naturligvis et stykke. Det er bare vigtigt at bruge pengene fornuftigt og ikke sprede initiativerne for meget, så det bliver tyndt. Man skal lave nogle få, konkrete projekter. Og så skal man være kreativ i at finde ressourcer, der allerede findes, men ikke er frit tilgængelige”, siger han, og nævner som eksempel, at man kunne frikøbe rettighederne til serier af lydbøger, der er indtalt.

Han er i hvert fald ikke i tvivl om, at pengene er værd at bruge.

”Jeg mener, at for det danske sprog er det her en væsentlig og nødvendig satsning. Ellers risikerer vi at gå glip af de automatiserings- og effektiviseringsmuligheder, der findes, især i kommunikationen mellem menneske og maskine. Og så vil konsekvensen være, at vi må bruge slå over i engelsk”.

Sprogteknologi i verdensklasse
Teknologiudvalget blev nedsat af kulturministeren i slutningen af 2017. Indsatsen omkring sprogteknologi er en del af en overordnet national strategi for kunstig intelligens.

LÆS RAPPORTEN