Videre til indhold | Videre til menunavigation

Mine værktøjer

Du er her: Forside / Kulturarvscluster

Big data møder dansk kulturarv

Interessetilkendegivelser for at blive et nationalt DeIC pilotprojekt på Kulturarvsclusteret indsendes via siden INTERESSETILKENDEGIVELSE FOR PILOTPROJEKTER

UDFORSK DE DIGITALE KULTURARVSMATERIALER

DeIC (Danish e-Infrastructure Cooperation) har fået til opgave at udbrede High Performance Computing (HPC) til nye forskningsområder såsom de humanistiske og samfundsvidenskabelige områder. For at imødekomme dette har DeIC og Det Kgl. Bibliotek indgået aftale om etablering af DeIC Nationale Kulturarvscluster, Det Kgl. Bibliotek.

Kulturarvsclusteret benytter moderne teknologier inden for data science og giver for første gang mulighed for at lave kvantitative forskningsprojekter i den digitale danske kulturarv – fx radio- og tv-udsendelser, arkiverede hjemmesider og historiske aviser.

Etableringen af kulturarvsclusteret betyder en styrkelse af den humanistiske forskning, hvor brugen af store datasæt indtil nu har været begrænset.

Det Kgl. Bibliotek har gennem altid deltaget i nationale og internationale forsknings- og forskningsinfrastruktur-projekter med baggrund i dansk digital kulturarv. Biblioteket har derved god viden og kompetencer omkring, hvad der kræves for at tilbyde fx data mining - søgning efter strukturer og mønstre i store datamængder.

Aftalen mellem DeIC og Det Kgl. Bibliotek har en samlet økonomisk ramme på 7,2 mio. kr.

Samlinger der er tilgængelige for forskningsprojekterne

Det Kgl. Bibliotek er ansvarlig for indsamling og langtidsbevaring af store dele af den danske kulturarv, herunder også den digitale. Denne digitale kulturarv er opdelt i utallige samlinger, hver med egne egenskaber, formater og muligheder. Eksempler på samlinger, der nu stilles til rådighed for forskere, er radio/tv, Netarkivet og avissamlingen. Alle samlinger er dog beskyttede af lovgivning hvilket for fx avissamlingen gør at kun aviser uden for ophavsret kan udleveres til forskning.

Radio-/tv-samlingen indeholder mere end 1 mio. timers tv-udsendelser og mere end 1,5 mio. timers radioudsendelser udsendt på danske kanaler fra 1980’erne til i dag. Samlingens data gøres tilgængelige som videofiler. Samlingen indeholder også store mængder metadata såsom programtitler, udsendelsestidspunkter og undertekster alt efter fra hvilken epoke, indsamlingen stammer. Se mere på mediestream.dk.

Netarkivet indeholder mere end 800TB data svarende til mere end 25 mia. objekter hentet fra den danske del af internettet fra 2005 til i dag. Også dette arkiv indeholder både data og metadata, og begge dele stilles til rådighed for forskningsprojekter. Du kan læses yderligere på netarkivet.dk.

Den digitale avissamling indeholder mere end 35 mill. avissider fra 1700-tallet indtil i dag. Se mere i samlingen. Alle disse sider ligger som billedfiler sammen med en stor mængde metadata og optisk tegngenkendelsesdata (OCR).

Ud over disse store samlinger har Det Kgl. Bibliotek også andre mindre specialsamlinger.

Alt i alt stilles mere end 4PB, svarende til cirka 4.000.000 gigabytes, til rådighed for nye og eksisterende forskningsprojekter.

Platform

Kulturarvsclusteret skal understøtte nye områder inden for især computer assisteret humanistisk forskning. Derfor blev det besluttet at designe et anlæg, der vil gøre det nemt at udføre veletablerede analyser uden at gå på kompromis i forhold til avancerede og skræddersyede metoder.

Kulturarvsclusteret stiller Hortonworks Data Platform til rådighed for forskningsprojekterne. Denne platform er udviklet inden for rammerne af Open Data Platform Initiative (ODPi), hvorpå der er installeret nogle mere brugervenlige og webbaserede grænseflader.

Open Data Platform er et nyt initiativ fra de største Hadoop distributører og indeholder en lang række af de gængse Hadoop teknologier. Der kan læses om ODPi på odpi.org, hvorfra der også kan downloades en virtuel fuldt funktionsdygtig OPDi server, som kan køre på en gængs desktop pc, så man i et lille setup kan prøve teknikkerne.

Som frontends til Kulturarvsclusteret tilbydes blandt andet Jupyter Notebooks og RStudio. Begge disse værktøjer giver browserbaseret adgang til at lave store analyser og visualiseringer af store datamængder.

Pilotprojekter

I løbet af 2018 vil de planlagte pilotprojekter udnytte anlæggets nye beregningsfaciliteter. I projekterne stiller Det Kgl. Bibliotek i samarbejde med DeIC eScience kompetencecenter-faciliteter og oplæring i systemet gratis til rådighed for forskerne. Løbende vil DeIC og Det Kgl. Bibliotek tilbyde yderligere fuldt finansierede pilotprojekter gennem åbne interessetilkendegivelser (se øverst her på siden).

Senere vil der også blive mulighed for at købe regnetid og konsulentbistand efter en transparent prismodel, som vil blive udviklet i forbindelse med de første pilotprojekter.

Yderligere information

Kommende projektkald vil blive distribueret gennem nationale kanaler inden for alle relevante områder. Du kan læse mere om interessetilkendegivelser her.

Kontakt

KOntakt

 

PER MØLDRUP-DALUM
Koordinator og generel kontakt

pmd@kb.dk
8946 2177

 

TONY BRIAN ALBERS
Drift

tba@kb.dk
8946 2316ASGER ASKOV BLEKINGE

abr@kb.dk
8946 2100

 

 

KATRINE HOFMANN GASSER

khg@kb.dk
8946 2301

DeIC