PDF/A 1, 2 en 3: deideale archiveringsformaten?

Uit Cultureel Erfgoed Standaardentoolbox
Naar navigatie springen Naar zoeken springen

Henk Vanstappen (PACKED vzw)

Bijna iedereen die met digitale teksten werkt, is vertrouwd met PDF of Portable Document Format. PDF is een ISO-genormeerd bestandsformaat voor het betrouwbaar en platformonafhankelijk weergeven van documenten. Dat betekent dat een document er steeds hetzelfde uitziet, ongeacht de PDF-lezer en het besturingssysteem waarmee je het opent.

Sinds de introductie door Adobe in 1993 zijn aan het formaat veel functies toegevoegd, bijvoorbeeld het gebruik van formulieren, digitale handtekeningen, hyperlinks, multimedia en transparantie. Belangrijk is dat alle PDF-versies voorwaarts en terugwaarts compatibel zijn met elkaar. Oude PDF-documenten kunnen worden geopend met de meest recente PDF-lezers. Omgekeerd kunnen ook de oudste lezers de meest recente versies openen – alhoewel later toegevoegde functies dan natuurlijk niet werken.

Onder meer door haar compatibiliteit, getrouwe weergave, platformonafhankelijkheid en ISO-normering leek PDF geschikt als archiveringsformaat. In 2005 werd daarom de ISO-specificatie voor PDF/A gepubliceerd. PDF/A is een versie van PDF met een aantal beperkingen die PDF voor langdurige bewaring bruikbaar maken.

Door bestanden in proprietary formaten zoals Word of WordPerfect om te zetten naar PDF/A, is de leesbaarheid op langere termijn verzekerd. De belangrijkste voorwaarde hiervoor is echter dat de PDF/A self-contained is: er mag geen verwijzing zijn naar externe bestanden zoals afbeeldingen of lettertypes. Ook moet de volledige inhoud van het bestand gelezen kunnen worden zonder extra hulpmiddelen. Een ingebed videobestand dat alleen met afzonderlijke software kan worden gelezen, is dus uitgesloten.

In 2012 werd de derde versie van de PDF/A-standaard gepubliceerd. Zowat het enige onderscheid tussen PDF/A-3 en de vorige versie is dat embedded files zijn toegelaten. Embedded betekent hier dat zelfstandige bestanden in een PDF ‘verpakt’ worden, maar er ook weer kunnen worden uitgehaald om te openen in een externe viewer. Zo zou je een Word-bestand kunnen migreren naar PDF/A en tegelijkertijd het origineel bestand inbedden.

Daarmee wordt natuurlijk gezondigd tegen de regel dat het document self-contained moet zijn. De vraag is dan ook welke meerwaarde PDF/A-3 biedt tegenover PDF/A-2, en zelfs of PDF/A-3 nog een archiveringsformaat is. Versie 3 er kwam op vraag van de medische sector die het origineel document om juridische redenen blijvend beschikbaar moet houden. Embedding leek daarvoor de handigste oplossing. Het inbedden van bestanden in een PDF/A-3 is echter niet meer dan een handig extra. Niets garandeert immers dat het ingebedde bestand in de toekomst leesbaar blijft.

Tot slot: bij migratie naar PDF/A kan informatie verloren gaan. De focus van PDF ligt immers vooral op de correcte weergave van het document. Informatie zoals de structuur of verborgen metadata kunnen bij migratie naar PDF/A verdwijnen. Gestructureerde dataverzamelingen (zoals Excel-bestanden) worden dan ook beter omgezet naar een formaat dat de datastructuur bewaart (zoals CSV). Bij het converteren van e-mails naar PDF/A gaat eveneens essentiële informatie verloren. Video, audio of beeld wordt bij een PDF/A ingekapseld in het document maar wordt hierdoor niet duurzamer. Ook hier zijn andere bestandsformaten beter geschikt.