Digitaliseringen av STM
Digitaliseringen av STM är ett samarbetsprojekt mellan Samfundet och Statens musiksamlingar och sker med bidrag från Helge Ax:son Johnsons Stiftelse. Målet är att göra artiklar och annat innehåll tillgängligt i ett arkiv för forskare och allmänhet. På grund av det arkivaliska syftet tillämpas en rullande gräns vid tre senaste utgivningsåren. För innehållet i löpande årgångar hänvisas till Svensk musikhistorisk bibliografi (se söktips) och referat i RILM abstracts.
Lena Forsgren vid Svenskt visarkiv har överinseendet över skanningen. Arbetet har utförts av henne, Hannah Öhrman samt Klara och Olle Lundberg. De inskannade bilderna överensstämmer inte till 100% med trycksidorna - om detta är väsentligt bör man alltså gå till den tryckta tidskriften. Tidigare årgångar tillbaka till 1919 liksom annat innehåll än artiklar och recensioner är under arbete.
Teknisk information
De artiklar som är skannade är bearbetade i ett s.k. OCR-program som känner igen bokstäverna och på så sätt återskapar den ursprungliga texten. Det är därför som PDF:erna överhuvudtaget är sökbara.
Som skanner har använts en Canon CanoScan 9900 F och upplösningen varierar mellan 400 och 600 dpi beroende på tryckkvalitet. Ju mindre och/eller otydligare tryck desto högre upplösning krävdes för att OCR-programmet skulle uppfatta texten utan alltför många fel.
OCR-programmet som har använts heter Adobe Acrobat Capture. Till skillnad från den mesta OCR-mjukvaran kan man med detta program välja att bevara den skannade bilden som den är, i stället för att bygga upp en helt ny textfil. Den sökbara texten ligger i ett lager bakom bilden, skulle man kunna säga.
För att underlätta för OCR-programmet och samtidigt hålla filstorleken nere har de skannade sidorna omvandlats till helt svartvita bilder (i stället för gråskaliga). Detta gäller inte sidor där illustrationer och fotografier förekommer. I de fallen har texten gjorts svartvit men den skannade sidan som helhet har fått behålla gråskaligheten. Detta förklarar varför somliga PDF:er (de med bilder) är mycket större än andra.
Bildfiler tar ju visserligen mycket större plats än textfiler, men en av de största fördelarna med denna teknik är att det inte gör lika mycket om det smyger sig in korrekturfel, eftersom dessa inte syns på skärmen.
Vi är väl medvetna om att det förekommer korrekturfel i den underliggande texten. Endast de ord som programmet har uppfattat som "misstänkta fel" har rättats. Ytterligare korrektur skulle dessvärre ha varit alltför tidskrävande. Detta drabbar naturligtvis sökbarheten, som alltså inte är hundraprocentig. Vänligen ha det i åtanke när ni läser dessa artiklar! Vi är naturligtvis tacksamma för alla tips om ev. felaktigheter.
Lena Forsgren
2006-08-15