Nyt liv i danske dialekter, dansk tale og sprog
Ifølge Jens Kaas Benner, der er Head of AI Lab hos Alexandra Instituttet, er det vigtigt at udvikle løsninger, som kan fungere i en dansk kontekst. Men den danske udvikling af AI-løsninger, som kan få stor betydning for kommunikatører, rækker langt udover tekstgeneringsværtøjer.
DM Kommunikation har set nærmere på tre danske AI-projekter, der er relevante for k-folk, som har til formål at gøre det lettere at arbejde med dansk i digitale løsninger – både i det offentlige og i det private.
Kommunikatører får hele tiden nye muligheder med lyd og sprog. Men man behøver ikke kigge udlandet eller tech-giganternes vej for at udvikle nye løsninger.
Senest har Dansk Sprogmodel Konsortium, der er et samarbejde mellem Alexandra Instituttet, IBM Danmark og Dansk Erhverv, indgået en aftale med danske medier om at finde en model for, hvordan danske mediers tekstdata kan anvendes i træning af danskfokuserede sprogmodeller.
Ifølge Jens Kaas Benner, der er Head of AI Lab hos Alexandra Instituttet, er det vigtigt at udvikle løsninger, som kan fungere i en dansk kontekst. Det gælder både i forhold til sprog og tone og i forhold til respekt for dataejerskab.
Men den danske udvikling af AI-løsninger, som kan få stor betydning for kommunikatører, rækker langt udover tekstgeneringsværtøjer:
For eksempel kan to projekter, der handler om danske dialekter og dansk tekst til tale, bidrage til udvikling og træning af sprogteknologiske systemer.
De tre projekter har hver deres fokus, men har det til fælles, at de bygger på åbne eller aftalebaserede data og har til formål at gøre det lettere at arbejde med dansk i digitale løsninger – både i det offentlige og i det private.
Danske dialekter møder AI
Sønderjysk, fynsk, bornholmsk og andre danske dialekter kan få vind i sejlene, takket være datasæt, der gør det muligt for virksomheder, organisationer og myndigheder at udvikle AI-stemme-løsninger, der er gearet til regionale sprogforskelle.
Et datasæt med 375 timers optagelser af dansk tale - den såkaldte dialektdatabase - er indsamlet via en crowdsourcing-metode, hvor frivillige deltagere fra hele landet har bidraget med lydoptagelser. Deltagerne har via en digital platform fået vist sætninger, som de skulle læse højt og indtale i deres egen naturlige udtale.
”Brugen af dialekter i sprogteknologiske datasæt gør det muligt at udvikle systemer, der bedre kan forstå og gengive variationer i dansk tale,” siger Jens Kaas Benner, Head of AI Lab hos Alexandra Instituttet.
Han peger på, at der i dag findes mange løsninger, der primært er trænet på rigsdansk:
“Men det fører til fejl eller manglende genkendelse, når brugeren taler med en anden, regional udtale.”
Målet med dialektdatabasen er at understøtte udvikling af systemer, der kan anvendes bredt – for eksempel i apps, kundeservice eller offentlige selvbetjeningsløsninger – hvor det ikke nødvendigvis er forudsigeligt, hvilken udtale brugeren har.
”Ved at inkludere dialekter i træningsdata bliver modellerne mere robuste og dækkende, hvilket kan øge præcisionen og brugervenligheden,” siger Jens Kaas Benner.
Dialektdatabasen er frit tilgængelig og kan anvendes til træning og test af løsninger, der skal genkende eller gengive dansk tale på tværs af geografiske forskelle.
”Dialektdatabasen baner dermed vejen for udvikling af teknologier, der kan fungere mere ensartet på tværs af geografiske og sproglige forskelle,” siger Jens Kaas Benner.
Projektet – helt kort
Formål:
Give udviklere adgang til taleeksempler med mange forskellige danske dialekter.
Indhold:
375 timers tale indsamlet fra brugere i hele landet, som har indtalt foruddefinerede sætninger.
Anvendelse:
Træning af talegenkendelse, som kan forstå forskellige regionale udtaler – for eksempel i stemmestyring eller automatiseret transskribering.
Dansk tekst-til-tale
Et datasæt med mere end 12 timers dansk tale skal bruges til at træne modeller i at læse tekst op digitalt.
Datasættet er sammensat for at dække en bred vifte af lydlige og sproglige variationer, og formålet er at give modeller mulighed for at lære sammenhængen mellem skrift og lyd på dansk – herunder udtale, intonation og pausering.
Ifølge Jens Kaas Benner, Head of AI Lab hos Alexandra Instituttet, adskiller tekst-til-tale-datasættet og dialektdatabasen sig fra de store internationale sprogmodeller, der typisk arbejder med tekstgenerering på tværs af sprog.
”Begge datasæt retter sig mod opgaver, hvor der skal produceres eller forstås tale digitalt, hvilket adskiller sig fra de store modeller, der opererer med tekstgenerering på tværs af sprog og domæner,” siger han.
Han fremhæver,at tale allerede bliver brugt i digitale løsninger:
”Brugen af tale i digitale kanaler er allerede i gang. Offentlige og private services anvender stemme i apps, support og information. Med de nye åbne datasæt er det blevet lettere at arbejde med dansk sprog i disse løsninger – uden at være afhængig af internationale leverandører,” siger han.
Ifølge Jens Kaas Benner kan tekst-til-tale-teknologi få betydning i mange sammenhænge – også for kommunikationsafdelinger, som i stigende grad kan komme til at tage stilling til, hvordan deres organisation fremstår gennem lyd og stemme.
Han nævner desuden potentialet for digital inklusion:
”Løsninger, der benytter dansk tale, kan være med til at understøtte digital inklusion – for eksempel for brugere med læsevanskeligheder eller borgere, som taler med en dialekt, som hidtidige sprogmodeller ikke forstår.”
Projektet – helt kort
Formål:
Gøre det muligt at træne modeller, der kan læse dansk tekst op digitalt.
Indhold:
12+ timers professionelt indtalt dansk tale, frit tilgængeligt. Optaget med høj lydkvalitet og annoteret med tilhørende tekst.
Anvendelse:
Grundlag for udvikling af syntetiske stemmer på dansk til for eksempel oplæste nyheder, vejledninger eller automatiske telefonsystemer.
Mediedata skal booste danske sprogmodeller
Det vakte opsigt, da aktører som Alexandra Instituttet, IBM Danmark og Dansk Erhverv i maj sidste år offentliggjorde, at man gik sammen om at skabe danske sprogmodeller. Det skete blandt andet for at sikre, at det danske sprog ikke udvandes i takt med, at internationale sprogmodeller som ChatGPT og Google Gemini vinder frem.
Nu har man indgået en aftale med danske medier, hvor parterne forpligter sig til at finde en måde at give adgang til mediernes historiske tekster til træning af sprogmodeller.
Ifølge Jens Kaas Benner, der er Head of AI Lab hos Alexandra Instituttet, er det afgørende at udvikle danske sprogmodeller for at sikre, at fremtidige værktøjer forstår det danske sprog korrekt. Samtidig giver det mulighed for at udvikle løsninger med respekt for danske dataejere, sprogbrug og demokratiske værdier, ligesom Danmark risikerer at blive endnu mere afhængig af internationale tech-giganter, som ikke tager højde for nationale behov, kultur eller sprog.
Mediedata skal gøre det muligt at træne danskfokuserede modeller, som kan anvendes i både offentlige og private løsninger.
“Danske mediers data indeholder viden om det danske sprog, samfund og kultur. At kunne træne danskfokuserede sprogmodeller på hele de danske mediers historiske tekstdata vil uden tvivl kunne betyde, at vi sammen kan skabe danskfokuserede sprogmodeller, som vil være værdiskabende for både den offentlige sektor og private virksomheder i Danmark,” siger Jens Kaas Benner.
Projektet – helt kort
Formål:
Udvikle danske sprogmodeller, der kan bruges i offentlige og private løsninger.
Indhold:
Dansksprogede datasæt og modeller til tekstforståelse, tekstgenerering og tale.
Anvendelse:
Grundlag for udvikling af chatbots, sproganalyse, talegenkendelse og automatiserede systemer med dansk sprog og tone.