Software:OpenRefine

Uit Cultureel Erfgoed Standaardentoolbox
Ga naar: navigatie, zoeken


OpenRefine (Voorkeurstitel)
Beschrijving

OpenRefine (vroeger GoogleRefine) is een volledig open source software waarmee men makkelijk grote hoeveelheden van data kan visualiseren, analyseren, manipuleren en corrigeren.


Systeemvereisten


Documentatie
Beheerder
Specificatie
Documentatie
Persistent ID


Een van de kerntaken van een collectiebeherende instelling is informatie over objecten bijhouden en toegankelijk maken. Die data zijn een waardevolle bron van kennis. Niet gestandaardiseerde en rommelige data zijn echter zeer lastig voor zowel de eindgebruiker als voor intern gebruik.

Om de kwaliteit van de ontsluiting en vindbaar- heid van een collectie te verhogen moet men aan data-cleaning doen. Dit vergemakkelijkt interne werking met data en biedt mogelijk- heden voor externe publicatie en uitwisseling van gegevens. Data-cleaning is vaak arbeids- intensief, zeker als het handmatig moet uit- gevoerd worden. Om de opdracht van het opschonen op een semi-automatische en dus snellere manier te laten verlopen heeft men een gespecialiseerde softwaretools nodig. zo’n tool is OpenRe ne. OpenRe ne (vroe- ger ondersteund door Google) is een volledig opensourcesoftware waarmee men gemakkelijk grote hoeveelheden van data kan visualiseren, analyseren, manipuleren en corrigeren.

Het principe van werking van OpenRefine is vergelijkbaar met een Exceltabel, maar is veel geavanceerder en specifiek ontwikkeld om te werken met tekstuele waarden. Het is een alleenstaand programma dat op de computer wordt geïnstalleerd en via een browser lokaal en zonder internetverbinding kan worden gebruikt. Er wordt dus met data buiten het eigenlijke databeheersysteem gewerkt. De data worden eerst geëxporteerd uit het gebruikte systeem (in csv, xml, xls of een ander formaat) en dan opgeladen in OpenRefine. De opgeschoonde data kunnen achteraf vanuit OpenRefine terug geïmporteerd worden naar het oorspronkelijke systeem.

wat kan je nu precies met data doen in OpenRefine? De belangrijkste mogelijkheden van dit programma kan je in drie grote groepen verdelen:

  • Analyseren van data Data worden op een overzichtelijk manier in verschillende kolommen als een tabel voorgesteld. Op elke kolom kan je specifieke filters toepassen om op verschillende manieren na te gaan welke waarden er voorkomen en of er fouten aanwezig zijn. zo kan je een text-filter gebruiken om te controleren of er in de waarden onnodige spaties of komma’s zitten.
  • Transformeren van data De gevonden fouten hoeven niet één voor één gecorrigeerd te worden. OpenRefine biedt verschillende functies om in één keer grote hoeveelheden data aan te passen. Eén functie laat bijvoorbeeld toe data in een bepaalde kolom te clusteren, waarbij een lijst van spellingsvarianten worden opgesteld. Daarna kan men voor een bepaalde variant kiezen die al de andere waarden vervangt. Daarnaast kan je gebruik maken van verschillende functies (uitgedrukt in GREL expression language), die rijke mogelijkheden tot datamanipulatie biedt. zo kan je alle overbodige leestekens op het einde van termen zoeken en meteen verwijderen. Alle stappen worden bewaard en indien nodig kan je de oorspronkelijke waarde herstellen.
  • Verrijking van de data De zogenaamde reconciliation service kan gebruikt worden om je eigen data te linken naar en te verrijken met waarden vanuit externe bronnen en standaard terminologieën. zo kan je namen van auteurs of kunstenaars koppelen met het overeenkomstige record in VIAF (Virtual International Authority File – een internationale standaard terminologie voor personen en instellingen), waarbij het identicatienummer van het VIAF-record wordt overgenomen, samen met de verschillende naamspellingsvarianten en biografische informatie. OpenRe ne is bovendien een gebruiksvrien- delijk programma dat je helpt in het opscho- nen van rommelige data. Meer informatie kan je vinden op de website openre ne.org. Er bestaat ook een praktische handleiding: Using OpenRefine, door Ruben Verborgh en Max De wilde (Packt Publishing, 2013).