Mot kunskapsbaserad storskalig kunskapsutvinning ur svensk text

Projektet Mot kunskapsbaserad storskalig kunskapsutvinning ur svensk text stöds av ett rambidrag från Vetenskapsrådet (2012-2016; dnr 2012-5738). Det är ett samarbete mellan tre forskargrupper i språkteknologi och datavetenskap:

Språkbanken vid Göteborgs universitet
Språkteknologigruppen vid institutionen för datavetenskap, Lunds universitet
Algoritm- och maskininlärningsgruppen vid institutionen för data- och informationsteknik, Chalmers tekniska högskola

Nyligen har några forskare börjat utnyttja de enorma textmängder som resulterat ur Googles massiva bokdigitaliseringsprojekt för att i dessa textmassor försöka följa språklig och kulturell utveckling över de två senaste seklerna. Forskningsområdet har med buller och bång lanserats under namnet "culturomics" (analogt med "genomics"), men de första studierna har med rätta kritiserats för att helt ignorera relevanta tidigare arbeten i språkteknologi och lingvistik, och t.ex. inte diskutera det inte alldeles enkla begreppet "ord" i den här kontexten.

Samtidigt är detta forskning som ligger i tiden. Det finns nu enorma mängder digital text att tillgå på svenska. Bara de svenska bloggarna uppgår till miljarder ord. Dessutom pågår ett antal kulturarvsdigitaliseringsprojekt, t.ex. Kungliga bibliotekets och Riksarkivets Digidaily-projekt där 300.000 sidor svensk dagspress från de senaste 300 åren har digitaliserats. Syftet med detta projekt är att lyfta "culturomics" till kunskapsbaserad storskalig kunskapsutvinning ur stora mängder digitaliserad svensk text, såvär modern som äldre.

I projektet ska de tre samarbetande forskargrupperna utforska hur språkteknologi baserad på både kunskapsrika språkresurser och kunskapslätta statistiska metoder kan kombineras på bästa sätt för att åstadkomma automatisk utvinning av formellt strukturerad kunskap ur stora mängder text.

Två praktiska mål för projektet är (1) att använda resultaten av forskningen för att tillhandahålla intelligenta forskningsverktyg för discipliner som är starkt beroende av text som primärforskningsdata, främst humaniora och samhällsvetenskap och (2) att för svenska skapa en prototyp till ett frågebesvarande system likt IBM:s Watson, som 2011 slog alla sina mänskliga medtävlare i amerikanska Jeopardy. Den typen av funktion är central för att ta fram den sorts intelligenta digitala tjänster som exempelvis visionen om 24-timmarsmyndigheten förutsätter.

Projektet anordnar i november 2014 workshopen STRiX: semantiska teknologier inom humanistisk och samhällsvetenskaplig forskning.