En miljard ord ur svenska korpusar från 1950 och framåt.

Vänligen använd följande artikel som referens för datasetet:
Stian Rødven Eide, Nina Tahmasebi, Lars Borin. 2016. The Swedish Culturomics Gigaword Corpus: A One Billion Word Swedish Reference Dataset for NLP

Kod för att extrahera data från korpusen, samt användningsinstruktioner, kan laddas ner från https://svn.spraakdata.gu.se/sb-arkiv/tools/gigaword/

{include https://svn.spraakdata.gu.se/sb-arkiv/pub/resurstext/gigaword.html}