Dansk Magisterforening

ITU-ledet forskningsprojekt skal forbedre dansk maskinoversættelse

Del artikel:

IT-Universitetet i København står i spidsen for Danish Gigaword Project, der har til formål at indsamle et enormt datasæt over det danske sprog, som det optræder i skriftlige kilder. For at sammensætte et datasæt, der indeholder samtlige nuancer og sproglige spidsfindigheder i skriftlig kommunikation på et givent sprog, er der behov for mere end bare en masse data – der er behov for en masse data fra en masse forskellige kilder. I datasættet indgår indtil videre bl.a. mødereferater og taler fra Folketinget, data fra et videnskabeligt projekt om spontan tale, Wikipedia-sider og en digital version af biblen. Projektet har også for nylig fået 50.000 artikler udgivet mellem 2010 og 2019 hos TV2 Regionerne, men de danske ophavsretsregler vanskeliggør arbejdet.

Forskningsprojektet, der er anført af lektor på ITU Leon Derczynski, kan gøre en automatiseret oversættelsestjeneste som Googles langt mere træfsikker.

”Vi havde allerede et gigaworddatasæt til det engelske sprog for 30 år siden. Selv Islands 360.000 indbyggere har et gigaworddatasæt, der dækker deres sprog. Danmark er langt bagefter på området. Projektet er vigtigt, hvis vi vil have bedre kunstig intelligens, der kan forstå det danske sprog. Der er behov for store datasæt for at udvikle nye værktøjer”, siger Leon Derczynski.

Målet med gigawordprojektet er bedre maskinoversættelser, bedre talegenkendelse og mere præcise søgeresultater, så snart datasættet er i brug.