Debat: Tør vi andet end at udvikle egne sprogmodeller?

Fra højre Thomas Kovsted, Andreas Holbak Espersen, Cecile Christensen, Anders Søgaard, Lisbeth Bech-Nielsen og moderator for debatten fagredaktør Sabrine Mønsted. Foto Anette Lerche.

10. juni 2024 Af Jo Brand

Del artikel:

Har vi brug for danske sprogmodeller? Hvordan sikrer vi, at de bliver bygget under hensyntagen f.eks. ophavsrettigheder? Og hvad med bæredygtighed? 4. juni satte DM Digi danske sprogmodeller til debat.

Det var et kompetent panel, der stod klar, da DM Digi i sidste uge holdt debatarrangement om danske sprogmodeller:

Lisbeth Bech-Nielsen, folketingsmedlem for SF og formand for Udvalget for Digitalisering og It og stiller af “Forslag om at skabe en stor dansk sprogmodel”.

Anders Søgaard, professor på Københavns Universitet og forsker i danske sprogmodeller.

Cecile Christensen, vicedirektør for digitalisering på Det Kgl. Bibliotek, der igennem længere tid har arbejdet med, hvordan en dansk sprogmodel kunne blive en realitet.

Andreas Holbak Espersen, digitaliseringspolitisk chef i DI med ansvar for AI og

Thomas Kovsted, administrerende direktør i IBM Danmark, som er én af initiativtagerne til Dansk Sprogmodel Konsortiet, sammen med Alexandra Instituttet og Dansk Erhverv.

I panelet var der bred enighed om, at der er brug for, at vi udvikler sprogmodeller i Danmark. Så vi sikrer, at de modeller, der skal bruges i både i offentlige og private virksomheder, er bygget efter principper om transparens og med respekt for ophavsret. 

- Vi har brug for en uafhængig model, som er trænet lovligt på dansk, nordisk eller europæisk data, så man kan bruge den i den offentlige sektor og i virksomheder på en lovlig og hensigtsmæssig måde, lød det fra vicedirektør for digitalisering på Det Kgl. Bibliotek, Cecile Christensen.

Digitaliseringspolitisk chef i DI, Andreas Holbak Espersen mente, at det var en styrke at have adskillige danske modeller.

- Vi har alle sammen - som samfund, virksomheder og offentlige myndigheder - interesse i, at vi har så mange og så gode sprogmodeller på dansk som muligt. Både dem, der er helt fagspecifikke, og dem der er mere generelle, sagde han.

Thomas Kovsted, administrerende direktør i IBM Danmark, som er én af initiativtagerne til Dansk Sprogmodel Konsortiet, sagde det var helt afgørende, at vi får danske sprogmodeller, vi kan have tillid til både i det private og i det offentlige.

- Vi skal havde danske sprogmodeller, og det skal vi af flere årsager. Vi skal have sprogmodeller, der forstår det danske sprog helt ned i dets nuancer. Og vi skal havde danske sprogmodeller, hvor der er ”orden i penalhuset”. Vi er kun i starten af det her paradigmeskifte, og hvis ikke vi har ansvarlige modeller og har tillid til dem, vi udvikler, så kan vi ikke bringe dem dybt ind i maven på danske virksomheder og i den offentlige sektor.

Hvis vi ikke har tillid til modellerne, kan vi ikke bringe dem dybt ind i maven på virksomheder og offentlige instanser.

Thomas Kovsted

Gigantisk problem

Det blev også diskuteret, hvordan man sikrer, at de data, som sprogmodeller skal trænes på er gode nok, og at der er styr på rettighederne til at bruge de data.

I den forbindelse sagde Thomas Kovsted, at han ikke nødvendigvis tror, at der skal udvikles modeller helt fra bunden:

- Jeg tror, at vi skal bygge oven på en model, der har en grundsubstans, som vi har tillid til og bygge videre ud fra den.

Cecile Christensen ser gerne, at det Kgl. Biblioteks samling/data kommer i spil.

- Vi har alle bøger, alle aviser, al radio, al tv. Vi tager en kopi af den danske del af internettet fire gange om året og gemmer, så vi har i dag i omegnen af ni petabyte data. Det er rigtig store mængder, som kunne være rigtig godt at bringe i spil i forbindelse med Dansk Sprogmodel Konsortiet, men det er først og fremmest en politisk beslutning, om man vil det, og så er det også et spørgsmål om rettigheder. De basismodeller, der findes på nuværende tidspunkt, er trænet ulovligt på data, som vi ikke har rettigheder til, sagde hun.

Vi har brug for en uafhængig model, som er trænet lovligt på dansk, nordisk eller europæisk data.

Cecille Christensen

- Rettighedshaverne skal have betaling, understregede Lisbeth Bech-Nielsen (SF), formand for Udvalget for Digitalisering og it.

- I Danmark har vi har gode måder til at kunne sikre, at det sker, fordi vi har kollektive aftaler, så vi behøver ikke gå ud til den enkelte forfatter, kunstner eller journalist, sagde hun og påpegede, hvor nødvendigt det er at tilgodese rettighedshaverne:

- I dag er det f.eks. sådan, at 60 procent af googlesøgningerne ikke kommer videre – de stopper på siden, fordi du læser det, du har søgt på, der. Du trykker dig ikke ind på DR eller NY Times. Og problemet er, at hele den fødekæde, vi skulle opleve på nettet, artikler vi skulle læse, e-bøger, digte og alt muligt ... den underskov forsvinder jo, hvis man ikke behøver at klikke sig videre. Det er et gigantisk problem for alt det, der skal føde ind i de her modeller og blive ved med at berige verden med nyt indhold.

Ifølge Thomas Kovsted har Dansk Sprogmodel Konsortiet endnu ikke en model for, hvordan man tackler spørgsmålet om rettigheder.

- Vi startede for nogle måneder siden, og vi har endnu ikke fået defineret alle processerne. Vi er helt klar på, hvor vi gerne vil hen, og hvis der er behov for det – og det kan godt være, at der er det – så må man kigge på det og finde en mulighed for at betale for, at man får stillet data til rådighed, sagde han.

Publikum blev bl.a. spurgt om de mente, vi skal have danske sprogmodeller og om de overvejer deres energi forbrug, når de bruger fx ChatGPT.

Tid til at tænke sig om

Spørgsmålet om bæredygtighed blev også vendt.

- Lige nu er det sådan, at man ”fælder en halv regnskov”, når man for sjov sidder og siger til en AI, ”lav et billede af en panda, der spiller skak”. Og hvis vi synes, at vi havde problemer med den mængde energi, som man brugte på kattevideoer. Så er det her en helt ny level, lød det fra Lisbeth Bech-Nielsen, der mener, at man er nødt til at sætte nogle stopklodser for, hvor meget energi, der kan bruges på området.

Grønne krav. Kom med dem.

Thomas Kovsted

Digitaliseringspolitisk chef i DI, Andreas Holbak Espersen, mente ikke, at man kan sætte en stopper for forbruget og udviklingen.

- Det handler om at løse problemerne. Det kan f.eks. være ved at stille ”grønne krav” i offentligt udbud af it. Da vi spurgte vores medlemmer i DI om netop det, så svarede de, at det var fint. Det er et problem, der skal løses. Det er der ingen tvivl om.

Thomas Kovsted fra IBM var enig:

- Grønne krav. Kom med dem.

Og så påpegede han, at anvendelsen af kunstig intelligens også kan være med til at løse problemstillinger med bæredygtighed.

- Så der er også en positiv gevinst, hvor vi kan udnytte de digitale ressourcer i forhold til klimaudviklingen.

- Hvis vi synes, at vi havde problemer med den mængde energi, som man brugte på kattevideoer. Så er det her en helt ny level, sagde Lisbeth Bech-Nielsen.

Forsker i danske sprogmodeller og professor på Københavns Universitet, Anders Søgaard, mener, det er nødvendigt at tænke sig godt i forhold hvilken vej, udviklingen skal.

- Vi taler om en teknologi, som hver dag bliver grønnere, men det gør brugen af den ikke. Jeg tror nogle af problemerne kommer til at løse sig selv, men fordi klimakrisen er så alvorlig, så bliver vi nødt til at træffe en masse kloge valg nu.

Læs mere om Dansk Sprogmodel Konsortium

Dansk Sprogmodel Konsortium

Relateret indhold

Alternative Chatbots Matus Gocman Unsplash

22. januar

Debat: Tør vi andet end at udvikle egne sprogmodeller?

Gigantisk problem

Tid til at tænke sig om

Læs mere om Dansk Sprogmodel Konsortium

Relateret indhold

Relateret indhold

To dataetiske chatbots ... og en der måske er det

Ophavsret og AI: millioner af dollars lander i de forkerte hænder

Danske kunstnere udnyttes af AI-virksomheder

Vælg din chatbot efter behov

Det er ikke ledelsen, der får medarbejderne til at bruge ChatGPT

Seneste artikler

Akademikerbladet

Genveje