Millioner af tekster frigivet til træning af danske sprogmodeller

CM/Unsplash

07. april 2026 Af Sabrine Mønsted

Udviklingen af dansk sprogteknologi kræver tekster på dansk. Det Kgl. Bibliotek, Rigsarkivet og Digitaliseringsstyrelsen har frigivet en stor mængde tekster og flere er på vej.

378,5 mio. ord fra Det Kgl. Biblioteks kuraterede samling af publicerede statslige publikationer og 7,4 mio. ord fra samlingen af historiske breve, blev frigivet i januar 2026. (Se datasættet her)

Den tidligere regeringens Strategiske indsats for kunstig intelligens har til ”formål at accelerere en sikker og ansvarlig udvikling og udnyttelse af kunstig intelligens i Danmark”.

Konkret er der søsat fire initiativer:

1. Den Digitale Taskforce for kunstig intelligens
2. Center for Kunstig Intelligens i Samfundet (CAISA)
3. Sikker platform for udvikling af transparente danske sprogmodeller
4. Tilgængeliggørelse af danske tekstdata

Initiativ 4 fokuserer på at frembringe data, som kan anvendes til udvikling af dansk sprogteknologi. Initiativet består af et samarbejde mellem Det Kgl. Bibliotek, Rigsarkivet og Digitaliseringsstyrelsen, som i fællesskab arbejder på at tilgængeliggøre tekstdata på baggrund af de store arkiver hos Det Kgl. Bibliotek, Rigsarkivet og Folketinget.

Flere tekstdata er på vej, og samarbejdspartnerne arbejder løbende med at sikre juridiske afklaringer i forhold til ophavsret og persondata. Pt handlede det udelukkende om tekstdata, som i forvejen kan findes på internettet, men som ikke er blevet teknisk efterbehandlet. Det gælder fx Rigsarkivets Arkivalier Online.

Derudover vil de næste udgivelser af tekstdata indeholde data fra kommunale byrådsmøder, flere tekstdata fra Det Kgl. Bibliotek samt udvalgte kilder fra Folketinget.