Publicatie:Extensible Markup Language (XML)

From Cultureel Erfgoed Standaardentoolbox
Jump to navigation Jump to search

Extensible Markup Language (XML) is een markeertaal: een computertaal die tekst van aanwijzingen voorziet, waardoor hij door een computer kan worden verwerkt. XML is op dit ogenblik de belangrijkste standaard voor het aanvullen van teksten met meta-informatie: informatie over de informatie in de tekst. XML maakt het mogelijk om een gedetailleerde beschrijving te maken van zowel de structuur als de inhoud van een tekst op een manier die zowel leesbaar is door machines als door de mens.

Naast XML zijn er nog heel wat andere markeertalen in omloop die teksten leesbaar maken voor machines. Standaard:HTML zorgt ervoor dat je tekst leesbaar wordt in een webbrowser. Standaard:SGML is een voorloper van HTML en XML en wordt nog gebruikt in oudere datasets. Standaard:LaTeX is een markeertaal specifiek voor wetenschappelijke publicaties.

Vergelijk de volgende twee voorbeelden:

originele tekst tekst in XML
XML Tekstbestand.jpg XML ORIGINAL.jpg

Aan de linkerkant zie je een gewoon tekstbestand dat de inhoud weergeeft van een fictieve catalogus. Rechts zie je dezelfde tekst, maar dan aangevuld met XML mark up, aanwijzingen die deze tekst beschrijven en structureren.

Wie vertrouwd is met de bibliotheeksector merkt op dat XML vergelijkbaar is met Standaard:MARC, een markeertaal voor bibliografische records. MARC maakt gebruik van numerieke codes om bibliografische records leesbaar te maken voor machines en ze eenvoudig te transporteren. Hieronder volgt een voorbeeld [1] van een MARC-record:

XML MARC 1.jpg

MARC is een uitwisselingsformaat dat specifiek voor bibliotheekcollecties werd ontwikkeld. Door de ontwikkeling van het web en de wens om ook gegevens van andere types collecties uitwisselbaar te maken, groeide de nood voor een markeertaal die zowel de semantische als formele kenmerken van je gegevens bewaart en waarmee je je gegevens makkelijk op het web kan publiceren.

Vandaag is XML in de erfgoedsector de standaard markeertaal voor de uitwisseling van informatie tussen verschillende computersystemen en voor de publicatie van informatie op het web.

  1. Bron: [1]