Wouter van Dijke

datajournalist

Mijn favoriete tools om data op te schonen

Zoeken en vervangen

Relatief simpele rommeligheden in data kun je opschonen met zoeken en vervangen, bijvoorbeeld in Excel. Letters met accenten die raar doen, gekke afbreekstreepjes, cijfers waar een punt in plaats van een komma in staat kun je met Zoeken en vervangen simpel oplossen.

Regular Expressions

Iets geavanceerder zoeken en vervangen doe je met Regular Expressions, oftewel Regex. Met Regex kun je zoekopdrachten doen als ‘vier cijfers, dan eventueel een spatie, en dan twee letters’, als je bijvoorbeeld probeert om postcodes te pakken te krijgen. Een goede site is RegExr.com. Werkt ook als je bijvoorbeeld per se een adres moet achterhalen om een moordenaar te pakken te krijgen:

XKCD-strip over Regular Expressions

Google Refine

Google Refine (vroeger Open Refine) is gemaakt om te werken met rommelige data. Een heel handige functie is om waarden die op elkaar lijken, met elkaar te matchen. Bijvoorbeeld:

Dit zijn allemaal manieren om dezelfde gemeente te schrijven, maar het maakt het lastig om mee te werken. Google Refine kan helpen om dit soort rommel op te schonen.