Videre til indhold | Videre til menunavigation

Mine værktøjer

Du er her: Forside / Kulturarvscluster

Big data møder dansk kulturarv

OBS: Grundet skift af HELE softwareplatformen på Kulturarvsclusteret, er der midlertidigt lukket for pilotprojekter frem til august 2017. Læs mere her

Det er fra august 2017 igen muligt at indsende interessetilkendegivelser for at blive et nationalt DeIC pilotprojekt på Kulturarvsclusteret. Se mere på INTERESSETILKENDEGIVELSE FOR PILOTPROJEKTER

UDFORSK DE DIGITALE KULTURARVSMATERIALER

DeIC (Danish e-Infrastructure Cooperation) har fået til opgave at udbrede High Performance Computing (HPC) til nye forskningsområder såsom de humanistiske og samfundsvidenskabelige områder. For at imødekomme dette har DeIC og Det Kgl. Bibliotek indgået aftale om etablering af DeIC Nationale Kulturarvscluster, Det Kgl. Bibliotek.

Kulturarvsclusteret benytter de meste moderne teknologier inden for data science og giver for første gang mulighed for at lave kvantitative forskningsprojekter i den digitale danske kulturarv – fx radio- og tv-udsendelser, hjemmesider og historiske aviser.

Etableringen af kulturarvsclusteret betyder en styrkelse af den humanistiske forskning, hvor brugen af store datasæt indtil nu har været begrænset.

Det Kgl. Bibliotek har gennem de seneste år deltaget i nationale og internationale forsknings- og forskningsinfrastruktur-projekter med baggrund i dansk digital kulturarv. Biblioteket har derved styrket både viden og kompetencer omkring, hvad der kræves for at tilbyde fx data mining - søgning efter strukturer og mønstre i store datamængder.

Aftalen mellem DeIC og Det Kgl. Bibliotek har en samlet økonomisk ramme på 7,2 mio. kr. over tre år.

Samlinger der er tilgængelige for forskningsprojekterne

Det Kgl. Bibliotek er ansvarlig for indsamling og langtidsbevaring af store dele af den danske kulturarv, herunder også den digitale. Denne digitale kulturarv er opdelt i utallige samlinger, hver med egne egenskaber, formater og muligheder. Eksempler på samlinger, der nu stilles til rådighed for forskere, er radio/tv, Netarkivet og avissamlingen.

Radio-/tv-samlingen indeholder mere end 1 mio. timers tv-udsendelser og mere end 1,5 mio. timers radioudsendelser udsendt på danske kanaler fra 1980’erne til i dag. Samlingens data gøres tilgængelige som videofiler. Samlingen indeholder også store mængder metadata såsom programtitler, udsendelsestidspunkter og undertekster alt efter fra hvilken epoke, indsamlingen stammer. Se mere på mediestream.dk.

Netarkivet indeholder mere end 800TB data svarende til mere end 25 mia. objekter hentet fra den danske del af internettet fra 2005 til i dag. Også dette arkiv indeholder både data og metadata, og begge dele stilles til rådighed for forskningsprojekter. Du kan læses yderligere på netarkivet.dk.

Den digitale avissamling er under opbygning og indeholder i dag 29 mio. avissider fra 1700-tallet indtil i dag. Når det nuværende digitaliseringsprojekt er afsluttet, vil der være 32 mio. sider i samlingen. Alle disse sider ligger som billedfiler sammen med en stor mængde metadata og optisk tegngenkendelsesdata (OCR).

Ud over disse store samlinger har Det Kgl. Bibliotek også andre mindre specialsamlinger.

Alt i alt stilles mere end 4PB, svarende til cirka 4.000.000 gigabytes, til rådighed for nye og eksisterende forskningsprojekter.

Platform

Kulturarvsclusteret skal understøtte nye områder inden for især computer assisteret humanistisk forskning. Derfor blev det besluttet at designe et anlæg, der vil gøre det nemt at udføre veletablerede analyser uden at gå på kompromis i forhold til avancerede og skræddersyede metoder.

Kulturarvsclusteret stiller Hortonworks Data Platform til rådighed for forskningsprojekterne. Denne platform er udviklet inden for rammerne af Open Data Platform Initiative (ODPi), hvorpå der er installeret nogle mere brugervenlige og webbaserede grænseflader.

Open Data Platform er et nyt initiativ fra de største Hadoop distributører og indeholder en lang række af de gængse Hadoop teknologier. Der kan læses om ODPi på odpi.org, hvorfra der også kan downloades en virtuel fuldt funktionsdygtig OPDi server, som kan køre på en gængs desktop pc, så man i et lille setup kan prøve teknikkerne.

Som frontends til Kulturarvsclusteret tilbydes blandt andet Jupyter Notebooks og RStudio. Begge disse værktøjer giver browserbaseret adgang til at lave store analyser og visualiseringer af store datamængder

Pilotprojekter

I løbet af den kommende tid vil fem planlagte pilotprojekter udnytte anlæggets nye beregningsfaciliteter. I projekterne stiller Det Kgl. Bibliotek i samarbejde med DeIC eScience kompetencecenter-faciliteter og oplæring i systemet gratis til rådighed for forskerne. I 2017og 2018 vil DeIC og Det Kgl. Bibliotek tilbyde yderligere fuldt finansierede pilotprojekter gennem åbne projektkald.

I løbet af 2018 vil der også blive mulighed for at købe regnetid og konsulentbistand efter en transparent prismodel, som vil blive udviklet i forbindelse med de første pilotprojekter.

De tre planlagte pilotprojekter er
  • Probing a Nation’s Web Domain med professor Niels Brügger fra Aarhus Universitet og seniorforsker Ditte Laursen fra Det Kgl. Bibliotek som projektejere. Projektet vil analysere den danske del af internettet, som det har udviklet sig fra 2005 til i dag. Deres datakilde vil hovedsagligt være metadata fra Netarkivet.
  • Digital Footprints Research Group med Anja Bechmann fra Aarhus Universitet som projektejer. Dette projekt vil analysere fotografier og metadata fra de sociale medier, hovedsagligt Facebook. Datakilde vil være projektets egne data.
  • Sabine Kirchmeier-Andersen fra Dansk Sprognævns forskningsinstitut har et projekt hvor hun vil analysere udviklingen af danskernes sprogbrug på de sociale medier. Datakilde vil være Det Kgl. Biblioteks digitale samlinger.

Yderligere information

Kommende projektkald vil blive distribueret gennem nationale kanaler inden for alle relevante områder. Du kan læse mere om projektkald her.

Kontakt

KOntakt

 

TONY BRIAN ALBERS
Drift

tba@kb.dk
8946 2316

 

 

ASGER ASKOV BLEKINGE

abr@kb.dk
8946 2100

 

 

KATRINE HOFMANN GASSER

khg@kb.dk
8946 2301

DeIC