Dansk sprogmodel er en mulighed – skal vi gøre det?

Vicedirektør på Det Kgl. Bibliotek Cecile Christensen. Foto Jakob Boserup   

Af Sabrine Mønsted
Del artikel:

Vi bør arbejde på en dansk eller europæisk sprogmodel, så vi ikke er overladt til kommercielle amerikanske eller kinesiske modeller, mener vicedirektør på Det Kgl. Bibliotek Cecile Christensen. Og biblioteket har en plan.

- Når du har en dialog med ChatGPT eller andre sprogmodeller, ved du ikke, hvilke datasæt den er trænet på, og dermed heller ikke, hvilke bias den har (for det har alle datasæt). Du ved heller ikke, om der er ophavsrettigheder, der er blevet krænket i processen, siger vicedirektør på Det Kgl. Bibliotek Cecile Christensen.  

Hun ser det som en naturlig forlængelse af bibliotekernes formål og opgave at være med til at udvikle og stille danske eller europæiske sprogmodeller til rådighed for samfundet.  

- Biblioteket skal give adgang til viden og understøtte et demokratisk samfund. Og vi skal som land finde løsninger og gøre brug af kunstig intelligens, hvor vi ikke krænker ophavsretten eller persondataloven, og hvor vi sikrer et fundament af dansk kultur og danske værdier. Alternativet er, at vi som befolkning, virksomhed eller offentlig instans er overladt til de kommercielle amerikanske eller kinesiske AI-værktøjer, siger hun. 

For selv om Microsoft f.eks. tilbyder lukkede miljøer til virksomheder eller organisationer - så de data, virksomhederne lægger ind i f.eks. ChatGPT ikke bliver videregivet - så ved vi stadig ikke, hvordan modellen er blevet til. Derfor skal vi som samfund finde løsninger, så vi kan være trygge i brugen af AI, mener Cecile Christensen.  

- Vi skal gøre det ordentligt og tænke os om, selv om stemningen lige nu kan være, at Danmark sakker bagud i brugen af AI, og at det går for langsomt, siger vicedirektøren. 

Hvis vi bruger sprogmodeller trænet i en anden kulturel kontekst end vores, så risikerer vi over tid at ændre opfattelser af tingene.

Sprogmodeller er mere end ChatGPT 

Det er vigtigt at gøre sig klart, at sprogmodeller er mange ting. Og Cecile Christensen taler ikke nødvendigvis om en dansk udgave af ChatGPT, men om at stille basissprogmodeller, trænet på danske, nordiske eller europæiske data til rådighed for offentlige institutioner og virksomheder. 

- Derfra kan basismodellerne trænes på specifikke data mere lokalt. For det, der kræver den helt store computerkraft, er at lave basismodellerne, derfra kræver det mindre at fintune dem på enkelte fagområder, siger hun.  

Data nok til dansk sprogmodel 

Danmark har både kompetencerne og de data, der skal til for at træne en dansk sprogmodel, ifølge vicedirektøren.  

Det Kgl. Bibliotek har ca. 9 petabytes data (9.000.000 gigabytes data), og de digitale samlinger vokser hver eneste dag med omkring 2 terabytes fra blandt andet bøger, avisartikler, tidsskrifter og radio- og tv-udsendelser mange år tilbage. Desuden høster biblioteket alle den danske del af internettets data fire gange om året. 

Idéen om en dansk, nordisk eller europæisk sprogmodel udspringer af Det Kgl. Biblioteks strategi for 2024-2027. For en væsentlig del af den handler om, hvordan biblioteket skal arbejder med AI. 

- Hvis vi skal være relevant som bibliotek i en digital tidsalder, skal vi tænke vores ressourcer ind i udviklingen. Med den enorme mængde data, vi har, kan man træne en sprogmodel, hvor det vil være gennemsigtigt, hvilke data man har brugt, og hvor man er sikker på, at ophavsrettighederne ikke er krænket, siger hun. 

Nordisk samarbejde 

I februar holdt de nordiske nationalbiblioteker en workshop for at dele erfaringer og tale om et eventuelt samarbejde om en sprogmodel. Her var Digitaliseringsstyrelsen, Aarhus Universitet og DeiC (Danish e-infrastructure Consortium), der har ansvar for den digitale forskningsinfrastruktur mellem universiteter, også med.  

I Sverige har det Kungliga Bibliotek f.eks. trænet en sprogmodel på svenske data, som er gjort open source. Den model bruger den svenske Domstolsstyrelse. 

I Norge har Nasjonalbiblioteket klargjort et stort datasæt, som man har trænet en basismodel på. Den kan virksomheder og institutioner søge om at få, og de kan så efterfølgende træne den selv med fagspecifikke data. 

Ophavsrettighederne har de i Norge håndteret ved at frikøbe en del data, indgå aftaler med rettighedshaverne f.eks. forlag om andre data, og endelig også ved at bruge frie data.  

Noget i samme stil forestiller Cecile Christensen, at man kan gøre i Danmark.  

Men, men, men.... 

Der er mange uklarheder, før vi når så langt i Danmark. Lovgivningen på området er ikke på plads - af gode grunde. For eksempel skal EU’s AI Act tolkes nationalt, hvad må man, og hvad må man ikke ifølge den? Den tolkning er Kammeradvokaten i gang med. Desuden mangler der praksiseksempler på reglerne for tekst- og datamining.  

- I dag må vi udlevere data til forskning. Men der mangler en politisk drøftelse og derefter eventuelt lovgivning ifht., hvordan vi skal vurdere data, der eventuelt skal bruges til en national eller europæisk sprogmodel, som alle jo får glæde af, siger Cecile Christensen.  

Politisk er der dog grøde på området og interesse for at tale om en eventuel sprogmodel.  

SF har blandt andet stillet forslag om udviklingen af en dansk sprogmodel og foreslået, at der afsættes 40 millioner. Det forslag 2. behandles den 8. maj 2024.  

Plan i skuffen  

Det Kgl. Bibliotek har en plan for, hvor man kan starte for at komme i gang med en basissprogmodel, på baggrund af samarbejde med forskellige universiteter. Det kan ses lidt som byggeklodser, hvor man starter med en stor mængde data, som man kan stille til rådighed som open source til at træne basis sprogmodeller, fx i grammatik og sprogforståelse.  

Ovenpå det kan man så specialisere modellerne til specifikke områder. Men som vicedirektøren siger, så afventer det en politisk afklaring, om man ønsker at få en dansk sprogmodel. 

Debat om dansk sprogmodel

Den 4. juni inviterer DM Digi til debat om sprogmodeller.

Har vi brug for en dansk eller europæisk sprogmodel - eller skal tech-giganterne klare det for os?   

Forslag fra SF  

Forslaget vil pålægge regeringen at igangsætte udviklingen af dansk kunstig intelligens (AI) gennem udarbejdelsen af en dansk generativ sprogmodel (LMM). Denne model skal tage højde for de særlige danske og europæiske værdier og regelsæt og øge Danmarks datasikkerhed, transparens og uafhængighed af udenlandske kommercielle interesser.

SF anslår omkostningerne til ca. 40 millioner kr. 

}