Videre til indhold | Videre til menunavigation

Mine værktøjer

Du er her: Forside / Kulturarvscluster

Big data møder dansk kulturarv

Det er nu muligt at indsende interessetilkendegivelser for at blive et nationalt DeIC pilotprojekt på Kulturarvsclusteret. Se mere på INTERESSETILKENDEGIVELSE FOR PILOTPROJEKTER

UDFORSK DE DIGITALE KULTURARVSMATERIALER

DeIC (Danish e-Infrastructure Cooperation) har fået til opgave at udbrede High Performance Computing (HPC) til nye forskningsområder såsom de humanistiske og samfundsvidenskabelige områder. For at imødekomme dette har DeIC og Statsbiblioteket indgået aftale om etablering af DeIC Nationale Kulturarvscluster, Statsbiblioteket.

Kulturarvsclusteret benytter de meste moderne teknologier inden for data science og giver for første gang mulighed for at lave kvantitative forskningsprojekter i den digitale danske kulturarv – fx radio- og tv-udsendelser, hjemmesider og historiske aviser.

Etableringen af kulturarvsclusteret betyder en styrkelse af den humanistiske forskning, hvor brugen af store datasæt indtil nu har været begrænset.

Statsbiblioteket har gennem de seneste år deltaget i nationale og internationale forsknings- og forskningsinfrastruktur-projekter med baggrund i dansk digital kulturarv. Biblioteket har derved styrket både viden og kompetencer omkring, hvad der kræves for at tilbyde fx data mining - søgning efter strukturer og mønstre i store datamængder.

Aftalen mellem DeIC og Statsbiblioteket har en samlet økonomisk ramme på 7,2 mio. kr. over de næste tre år.

Samlinger der er tilgængelige for forskningsprojekterne

Statsbiblioteket er sammen med det Kongelige Bibliotek ansvarlig for indsamling og langtidsbevaring af den danske kulturarv, herunder også den digitale. Denne digitale kulturarv er opdelt i utallige samlinger, hver med egne egenskaber, formater og muligheder. Eksempler på samlinger, der nu stilles til rådighed for forskere, er radio/tv, Netarkivet og avissamlingen.

Radio-/tv-samlingen indeholder mere end 1 mio. timers tv-udsendelser og mere end 1,5 mio. timers radioudsendelser udsendt på danske kanaler fra 1980’erne til i dag. Samlingens data gøres tilgængelige som videofiler. Samlingen indeholder også store mængder metadata såsom programtitler, udsendelsestidspunkter og undertekster alt efter fra hvilken epoke, indsamlingen stammer. Se mere på mediestream.dk.

Netarkivet indeholder mere end 600TB data svarende til mere end 20 mia. objekter hentet fra den danske del af internettet fra 2005 til i dag. Også dette arkiv indeholder både data og metadata, og begge dele stilles til rådighed for forskningsprojekter. Netarkivet er et fælles nationalt projekt mellem Det Kongelige Bibliotek og Statsbiblioteket, og der kan læses yderligere på netarkivet.dk.

Den digitale avissamling er under opbygning og indeholder i dag 11 mio. avissider fra 1700-tallet indtil i dag. Når det nuværende digitaliseringsprojekt er afsluttet, vil der være 32 mio. sider i samlingen. Alle disse sider ligger som billedfiler sammen med en stor mængde metadata og optisk tegngenkendelsesdata (OCR).

Ud over disse store samlinger har Statsbiblioteket også andre mindre specialsamlinger.

Alt i alt stilles mere end 4PB, svarende til cirka 4.000.000 gigabytes, til rådighed for nye og eksisterende forskningsprojekter.

Platform

Kulturarvsclusteret skal understøtte nye områder inden for især computer assisteret humanistisk forskning. Derfor blev det besluttet at designe et anlæg, der vil gøre det nemt at udføre veletablerede analyser uden at gå på kompromis i forhold til avancerede og skræddersyede metoder.

Kulturarvsclusteret stiller IBM’s Biginsights platform til rådighed for forskningsprojekterne. Denne platform består af Open Data Platform (ODPi), hvorpå der ligger et sæt af avancerede analyseværktøjer udviklet af IBM.

Open Data Platform er et nyt initiativ fra de største Hadoop distributører og indeholder en lang række af de gængse Hadoop teknologier. Der kan læses om ODPi på odpi.org, hvorfra der også kan downloades en virtuel fuldt funktionsdygtig OPDi server, som kan køre på en gængs desktop pc, så man i et lille setup kan prøve teknikkerne.

Ovenpå ODPi har IBM lagt en række kommercielle systemer: BigSheets, BigSQL, BigR og Text Analytics. Disse fire systemer danner tilsammen grundlaget for at udføre analyser ved hjælp af kendte teknikker - men at gøre det på enorme datamængder.

BigSheets udnytter regnearksmetaforen. Er man vant til at arbejde i Excel, vil dette være en måde at komme i gang på.

BigSQL er en ANSI SQL, der muliggør SQL forespørgsler mod tilsvarende store datamængder af en størrelse, som traditionelle relationelle databaser ikke kan håndtere. Har man allerede en arbejdsgang eller viden om SQL, kan man koble eksisterende SQL klientprogrammer op mod BigSQL via den meget udbredte JDBC.

BigR muliggør anvendelse af R programmet på datamængder, der overstiger en enkelt computers ressourcer.

Text Analytics er et browserbaseret arbejdsområde til tekstanalyse. Der medfølger en række færdigbyggede moduler til fx NER og sentiment analysis.

Som frontend til Spark tilbydes både Jupyter Notebooks og RStudio Server.

Pilotprojekter

I løbet af det næste halve år vil tre pilotprojekter udnytte anlæggets nye beregningsfaciliteter. I projekterne stiller Statsbiblioteket i samarbejde med DeIC eScience kompetencecenter-faciliteter og oplæring i systemet gratis til rådighed for forskerne. I 2017og 2018 vil DeIC og Statsbiblioteket tilbyde yderligere fuldt finansierede pilotprojekter gennem åbne projektkald.

I løbet af 2017 vil der også blive mulighed for at købe regnetid og konsulentbistand efter en transparent prismodel, som vil blive udviklet i forbindelse med de første pilotprojekter.

De tre planlagte pilotprojekter er
  • Probing a Nation’s Web Domain med professor Niels Brügger fra Aarhus Universitet og seniorforsker Ditte Laursen fra Statsbiblioteket som projektejere. Projektet vil analysere den danske del af internettet, som det har udviklet sig fra 2005 til i dag. Deres datakilde vil hovedsagligt være metadata fra Netarkivet.
  • Digital Footprints Research Group med Anja Bechmann fra Aarhus Universitet som projektejer. Dette projekt vil analysere fotografier og metadata fra de sociale medier, hovedsagligt Facebook. Datakilde vil være projektets egne data.
  • Sabine Kirchmeier-Andersen fra Dansk Sprognævns forskningsinstitut har et projekt hvor hun vil analysere udviklingen af danskernes sprogbrug på de sociale medier. Datakilde vil være Statsbibliotekets digitale samlinger.

Yderligere information

Kommende projektkald vil blive distribueret gennem nationale kanaler inden for alle relevante områder. Er du interesseret i at få direkte advisering, kan du kontakte Per Møldrup-Dalum.

Kontakt

KOntakt

PER MØLDRUP-DALUM
Daglig leder

pmd@statsbiblioteket.dk
8946 2177

 

 

TONY BRIAN ALBERS
Drift

tba@statsbiblioteket
8946 2316

 

 

ASGER ASKOV BLEKINGE

abr@statsbiblioteket
8946 2100

 

 

KATRINE HOFMANN GASSER

khg@statsbiblioteket.dk
8946 2301

DeIC