Erik Melander

Databas och digitalt arkiv för nästa generation konfliktdata


Uppsala Conflict Data Program vid Uppsala Universitet har de senaste åren etablerat sig som världens främsta leverantör av kvantitativa data på väpnade konflikter. Nya tekniska hjälpmedel för forskare flyttar dock ständigt fram gränserna för vilken typ av data som krävs för att följa med i forskningsfronten. Med anledning av de nya krav som forskare ställer på data behövs även satsningar på att bygga ut datahanteringsstrukturen hos dem som tillhandahåller data. UCDP vill med detta infrastrukturanslag utveckla sin datahantering för att försäkra sig om att Sverige fortsatt är den miljö som världens konfliktforskare vänder sig till.Framför allt ställs nu krav inom konfliktforskningen på att få fram data på en disaggregerad nivå; information om organiserat våld på en analysnivå som är lägre än land och år. UCDP har redan tillgång till stora mängder data av denna typ, vilka är basen i det material för kvantitativa studier som programmet gör tillgängligt för forskare globalt. För att behålla sin position som världsledande inom konfliktdata expanderar UCDP aktivt in i forskningsfronten på disaggregerade data om konflikter.Nya tekniska resurser krävs dock för att kunna hantera de stora mänger data som kommer att bli konsekvensen av satsningen. Detta projekts mål är att skapa en databas för att hantera de hundratusentals observationer av konflikter som denna övergång innebär. Slutligen krävs det att stora mängder källmaterial digitaliseras för att ge transparens åt denna nya data.

Erik Melander, institutionen för freds- och konfliktforskning, Uppsala universitet

Databas och digitalt arkiv för nästa generation konfliktdata

2010-2012


Syftet med infrastrukturprojektet, "Database and digital archives for second generation conflict data" kan delas in i två delar. Dels skulle bidraget finansiera en teknisk lösning för att kunna hantera de stora mänger data som är ett resultat av att Uppsala Konfliktdata Program (UCDP) börjat samla in och leverera data på en disaggregerad nivå; information om organiserat våld på en analysnivå som är lägre än land och år. Dels behövdes en infrastruktur för att hantera de stora mängder källmaterial som UCDP samlat på sig under de 30 år programmet varit verksamt. Detta material var i stort behov av att digitaliseras för att kunna säkra tillgången för framtiden samt att göra materialet sökbart.

Planen var att allt detta material skulle lagras i en Ask Sam databas. Redan på ett tidigt stadium visade det sig att Ask Sam inte uppfyllde de krav UCDP hade på versionshantering, användarvänlighet och användbarhet. AskSam är en så kallad free-form databas vilket inte var kompatibelt med UCDPs datastruktur där relationerna mellan olika data är viktiga och konstanta. Vidare visade sig Asksam ha bristfälliga möjligheter att spåra ändringar, något som är centralt inom UCDP. Ytterligare problem med AskSam visade sig vara att möjligheterna till att jobba simultant med samma data var begränsade, samt att kopplingen mellan olika dataset var problematisk eller omöjlig. Detta sammantaget ledde till att AskSam inte ansågs vara en lösning som passade UCDPs geo-kodningsprojekt. AskSam har däremot vissa förtjänster när det gäller arkiveringen och sökbarheten av det inskannade materialet som digitaliseringsprojektet producerat. Den mjukvara som använts för själva skanningen, den så kallade OCR (Optical Charachter Recognition) mjukvaran har fungerat bra och varit väl anpassad för de prövningar som det spretiga arkivmaterialet inneburit. Mjukvaran som använts har varit ABBY finereader. Eftersom de pärmar som ska digitaliseras och göras sökbara innehåller allt från tidningsurklipp till rapporter och innehåller källor på flera olika språk har det varit viktigt att ha en avancerad mjukvara som har underlättat scanningen och analyseringen.

För att lösa problemet med AskSams brister beslutade sig UCDP för att istället ta in två systemutvecklare under våren 2011. Dessa fick i uppdrag att utveckla en grund för ett nytt databaslagringssystem där UCDP smidigt kan lagra och uppdatera sina nya data. Det nya systemet fick fortsatt liv efter ett bidrag från Vetenskapsrådet under hösten 2011 och arbetet pågår fortfarande. För att säkra datamängden under utvecklingsperioden fattade UCDP två beslut. Dels sparas de Excel-arbetsblad som kodarna arbetar i på en Share-point server, för att säkra versionshantering och lagring. Dels satte vår egen programmerare upp en temporär databas, genom vilken vi kunde lansera de disaggregerade data (geo-refererade event data) som vi samlat för Afrika. Resultatet kan ses på http://www.ucdp.uu.se/ged/. Datamängden lanserades i december 2011 och en uppdatering kom under november 2012. Statistik visar att sidan besökts 16661 gånger (av "riktiga besökare") sedan den lanserades. Många väletablerade universitet, forskningsgrupper och myndigheter har laddat hem våra nya data tex från Princeton, Michigan, Oxford, King's College, Columbia, SIPRI, GIGA, Svenska polismyndigheten, NATO och Pentagon.

Gällande digitaliseringen av UCDPs arkiv har vissa framsteg gjorts. I nuläget har 73 av ca 250 pärmar scannats. Initialt var planen att de personer som var anställda som kodare samt projektledare skulle scanna och analysera pärmar vid sidan av sina ordinarie arbetsuppgifter, detta visade sig innebära en allt för stor arbetsbörda som gick ut över andra arbetsuppgifter. För att ändå producera scannat och analyserat material beslutades att ta in oavlönade praktikanter under sommaren, detta gjordes första gången under sommaren 2011 och sedan igen under sommaren 2012. Anledningen till att tidsåtgången varit så mycket större än vad som först förutspådde har varit det faktum att pärmarna har visat sig vara extremt unika, vilket i sin tur bidragit till att personen som skannar måste iaktta extrem noggrannhet för att resultatet ska bli användbart. Pärmarna som innehåller källmaterial som använts för att koda underlag till UCDPs dataset och databas är uppdelade efter land och år, och innehåller många typer av källmaterial. Vissa pärmar innehåller unikt material som inte är tillgängligt annat än via pärmarna, detta kan röra sig om tidningsurklipp från regionala tidningar, rapporter från NGOs samt olika land/ämnesspecifika artiklar från allehanda nyhetsbyråer. Dessa förhållanden har lett till att det uppskattningar som gjorts gällande tidsåtgång visat sig vara allt för optimistiska. De uppskattningar som vi gjort i dagsläget, baserat på erfarenheterna från de två somrarna med praktikanter, samt det arbete som idag utförs av den skanneroperatör som är anställd, är att en pärm tar mellan 5-10 arbetsdagar att scanna och analysera. Tidsåtgången är hög, främst eftersom varje scannad artikel måste kontrolleras så att den stämmer överens med originalet, samt att det i vissa fall är bristfällig kvalitet på originalen, framförallt gällande tidningsurklipp eller material som faxats eller kopierats.

Inom ramen för digitaliseringsprojektet har ett arbetsschema utarbetats och testats med god framgång. I dagsläget jobbar en scanneroperatör och en arkiverings- och digitaliseringskonsult inom digitaliseringsprojektet, dels med att scanna fler pärmar men också med att behandla det inskannade materialet så att det kommer kodarna och forskarna inom UCDP till gagn. Dessa tjänster finansieras av UCDPs grundbudget, men projektet planerar att söka nya medel för att kunna slutföra arbetet.

Av det som skannats, har visst arkivmaterial kommit till användning inom UCDPs geokodningsprojekt. Under arbetet med att geokoda Indien har det inskannade materialet använts för att belägga och förstärka de källor som ligger till grund för UCDPs data. Detta pilotprojekt har visat sig vara framgångsrikt och underlättade arbetet markant för kodaren ifråga.

Publikationer

Melander, Erik, and, Ralph Sundberg, 2011, “Climate Change, Environmental Stress. and Violent Conflict: Tests introducing the UCDP Georeferenced Event Dataset”, Paper presented at the International Studies Association, March 16-19, Montreal, Canada.

Dulic, Tomislav, 2010, “Geocoding Bosnian violence: A note on methodological possibilities and constraints in the production and analysis of geocoded event data”, Paper presented at the International Studies Association, 17-20 February, New Orleans, United States.