Magdalena Gram

Svensk historisk bibliografi (SHB). Digitalisering av årgångarna 1771-1976

Svensk historisk bibliografi (SHB) är en förteckning över litteratur om svensk historia i vid bemärkelse (oavsett utgivningsland) samt historieteori (publicerad i Sverige).

I SHB:s referensgrupp har frågan om en digitalisering och OCR-bearbetning av SHB för 1771-1976 behandlats flera gånger och gruppen har uttalat sig mycket positivt om Kungl. bibliotekets planer på att tillgängliggöra den via internet.

Projektet innebär, förutom själva digitaliseringen, att bibliografiska poster kommer att skapas i LIBRIS och länkas till den digitaliserade bibliografin. På detta sätt kommer sökning att kunna ske via posterna i LIBRIS eller genom bläddring i den digitaliserade bibliografin, sida för sida.

Bibliografin är den äldsta aktiva inom svensk humaniora och en guldgruva för den som söker litteratur om svensk historia. Dagens forskare är vana vid att hitta bibliografisk information via internet, och de tryckta volymerna, som inte längre finns till försäljning, håller på att bli bortglömda.

Detta faktum understryker behovet av att digitalisera SHB. Genom projektet kommer tillgängligheten till informationen att avsevärt förbättras och bibliografin även nå nya användargrupper. Svenska historiska källor kommer på detta sätt även bli mer tillgängliga och synliggjorda i ett internationellt forskningssammanhang.
 

Magdalena Gram, Kungliga biblioteket

2009-2012

Kungliga biblioteket (KB) är enligt sitt uppdrag en del av forskningens infrastruktur och ska bland annat sörja för god tillgänglighet till biblioteket och dess samlingar.

Svensk historisk bibliografi (SHB) är en guldgruva för den som söker litteratur inom området svensk historia i vid mening. De tryckta årgångarna finns inte längre till försäljning och de forskningsbibliotek som äger exemplar har i allmänhet placerat dessa i referensbiblioteket. Volymerna kan således inte lånas hem. Eftersom dagens forskare är vana vid att kunna arbeta på distans och förväntar sig att finna inte minst bibliografisk information på nätet, är det angeläget att tillgängliggöra de tryckta bibliografiernas innehåll via Internet. På så vis kan forskare både inom och utanför Sverige beredas möjlighet att lättare upptäcka relevant äldre historisk forskning.

SHB är en specialbibliografi som under lång tid förtecknats i KB:s regi. SHB för åren 1771-1976 finns endast som tryckta bibliografier, därefter inleddes en registrering i digitalt format och 1977-2010 förtecknades SHB som en deldatabas i LIBRIS. 2008 ansökte KB hos Riksbankens jubileumsfond (RJ) om medel för digitalisering av de tryckta SHB-volymerna.

Projektets övergripande mål var att via Internet skapa tillgänglighet till de tryckta volymerna av SHB och att kunna erbjuda lägst samma sökbarhet som gäller för de tryckta volymerna. Med stöd av historiker docent Jonas Nordin vid KB:s forskningsavdelning formulerades en kravspecifikation inför genomförandet. Specifikationens övergripande områden kom att omfatta:

  • Sökmetod
  • Sökresultat
  • Nedladdning
  • Utskrift
  • Gränssnitt
  • Teknik

Resultat

Projektet har tagit fram söktjänsten SHBd - Svensk historisk bibliografi digital (SHBd). SHBd uppfyller med god marginal den kravspecifikation som gjordes initialt och erbjuder samsökning mellan de tryckta posterna 1771-1976 och LIBRIS-posterna 1977-2010, det vill säga samtliga SHB-poster.

1. Projektets resultat (SHBd) presenteras som en fristående söktjänst via webbadressen http://shb.kb.se

2. De tryckta volymerna erbjuds i PDF-format för individuell nedladdning via http://shb.kb.se.
Samtliga volymer är sök- och bläddringsbara och omfattar samtliga poster i originalvolymen samt dess innehållsförteckning och index.

3. Projektet har förutom de ovan redovisade resultaten lett till en intressant infrastrukturell utveckling som kan komma att återanvändas och vidareutvecklas för framtida katalogkonverteringsarbeten.

Arbetssätt

Det stod tidigt klart att en manuell konvertering, dvs. en konvertering där post för post manuellt skrivs in i LIBRIS, inte var realistisk i förhållande till arbetsinsats och kostnad. I stället förordades alternativa och teknikintensiva lösningar. Arbetet utmynnade i en process som nedan beskrivs i korthet.

1. Från boksida till bildfil
Sju av de nio tryckta SHB-volymerna fotograferades i kamerastationer i upplösning 400 ppi. De två återstående var så hårt bundna att de måste tas isär och skannas i en rotationsskanner i upplösning 300 ppi. Totalt producerades ca 6000 högupplösta bildfiler, vilka långtidslagrades i TIFF-format.

2. Från bildfil till textfil
Följande programvaror användes på vägen från bildfil till textfil:

a.Internutvecklat program för friläggning av text, POD (Print On Demand).
Programspråk: AppleScript Studio .

b.POD använder Adobe Photoshop som grafikmotor.

c. Adobe Bridge. När en bok bearbetats klart i POD, inspekterades resultatet i Adobe Bridge.

d. ABBYY Recognition Server 2.0 är ett program för OCR-bearbetning.
Resultatet från bearbeningen sparades som textfiler och pdf-filer. PDF-filen består av två lager: en tvåtonsbild av boksidan, samt ett bakgrundslager med ocr-behandlad text.

SHB-volymernas poststruktur varierade från volym till volym, vilket ställde höga krav på den fortsatta textbearbetningen. Två program utvecklades internt i programspråket Java för att möjliggöra den fortsatta processen.

e. SHB_Regi. Alla poster försågs med unika postnummer och texten delades upp i enskilda poster.

f. SHB_korr. Texten rättades både maskinellt och manuellt. Posterna kom på så vis att innehålla färre fel än det OCR-behandlade textlagret i PDF-filerna.

3. Från textfil till MARC-post 
Inför inläsningen till den för projektet särskilt framtagna databasen SHBd bearbetades de ovan beskrivna textfilerna på följande sätt:

a. Varje enskild post konverterades till MARC-format och märktes upp med ett urval MARC-fält som arbetats fram tillsammans med katalogisatörer vid KB:s enhet för nationalbibliografin.

b. MARC-posterna sparades som maskinläsbara laddningsfiler som laddades in i SHBd-databasen.

4. Från MARC-post till söktjänsten SHBd
En fristående logisk databas byggdes för att ladda alla SHB poster till SHBd-databasen.
SHBd innehåller poster från två källor:

a. Från de tryckta, digitaliserade volymerna, se beskrivning ovan.

b. Överföring av de bibliograferade SHB-posterna från LIBRIS till SHBd:

*För att överföringen av LIBRIS-poster till SHBd skulle bli korrekt genomförd rättades ca 300 särskilt problematiska bibliograferade poster manuellt.

*MARC-posterna laddades ner i databasen och försågs med särskild uppmärkning för att kunna särbehandlas. Ett särskilt uttag gjordes av de knappt 50 000 bibliograferade poster som saknades, främst artikelposter. Dessa poster försågs också med särskild uppmärkning för att kunna sökas ut separat. Särskilda sökindex byggdes.

5. Anpassningar av sökformulär och gränssnitt

Söktjänsten erbjuder:

1. Enkel sökning. Denna möjligör samsökning i de tryckta volymernas poster (1771-1976) och i de bibliograferade posterna 1977-2010.
2. Avancerad sökning. Eftersom den OCR-tolkade texten måste läggas i ett eget MARC-fält och inte kunde märkas upp som titel, författare, förlag etc., så byggdes ett avancerat sökformulär för mer exakta sökningar och då även i materialet 1771-1976. I detta formulär kan sökfrågor konstrueras med de booleska operatörerna OCH, ELLER, INTE, alternativt kan man söka på orden i följd. Det är även möjligt att kombinera sökfrågor i SHB 1771-1976 och 1977-2010.
3. Index 1977-2010. De bibliograferade posterna går att söka i ett bläddringsindex, t.ex. på författare, institutioner, titel och ämnesord.
4. Boolesk sökning. Ett antal specialindex har byggts för att kunna göra specifika sökningar efter olika typer av SHB poster, eller enskilda poster.
5. Ladda ner. Här kan SHB 1771-1976 laddas ner som nio pdf:er som motsvarar de tryckta volymerna.

Lansering

Under 2011 lanserades SHBd genom utdelning av det för projektet särskilt framtagna tryckmaterielet samt projektrepresentation vid:

- Det 27:e Nordiska historikermötet, Tromsö, 11-14 augusti 2011

- Bok- och biblioteksmässan 2011, Göteborg, 22-25 september 2011  

- De svenska historiedagarna 2011, Stockholm, 7-9 oktober 2011

Under 2012 planerar KB att sprida information om SHBd via:

- ämneslistor för historiker, bibliotekarier, arkivarier och ämneslärare

- specialtidskrifter inom ämnet svensk historia

- sociala medier

-  KB:s kataloger och webbplats

-  Mobilt webbgränssnitt

Projektet i siffror

SHBd omfattar totalt ca 188 000 poster. Ca 79 000 av dessa poster har skannats, OCR-tolkats och bearbetats inom projektet. Övriga ca 109 000 poster har hämtas från LIBRIS.