Pieter Edelman
2 jun 2009

Met een financiële injectie van 32 miljoen euro is aan de Rijksuniversiteit Groningen het vierjarige Target-programma afgetrapt. Het project ontwikkelt methodes om zeer grote hoeveelheden data inzichtelijk te maken, bijvoorbeeld van sensornetwerken, astronomieobservatoria en jarenlange medische meetgegevens en DNA-profielen. Bij Target zijn naast de RUG het Universitair Medisch Centrum Groningen (UMCG), Astron, IBM, Heeii, Oracle en Task24 betrokken. Zij brengen samen de helft van het bedrag in. De andere helft komt van het Samenwerkingsverband Noord-Nederland (SNN) en de provincies Drenthe en Groningen. De initiatiefnemers hopen dat er zich veel MKB‘ers bij het programma zullen aansluiten. Een aanzienlijk deel van de investering, tussen de zes en tien miljoen euro, wordt gebruikt voor de bouw van een datacentrum met capaciteit vanaf ver boven de honderd petabyte. Als het aan de initiatiefnemers ligt, groeit het project de komende tien jaar uit tot een fysiek kenniscentrum met honderden arbeidsplaatsen.

Het programma is een uitvloeisel van het Europese Astro-Wise-project (Astronomical Wide-field Imaging System for Europe), dat wordt geleid door de universiteit Groningen. ’Vanuit de astronomieonderzoeksschool Nova zijn we rond 2000 begonnen met het bouwen van een 256 megapixel CCD-camera voor optische astronomie‘, doet astronomiehoogleraar Edwin Valentijn de ontstaansgeschiedenis uit de doeken. ’Die moet in Chili driehonderd nachten per jaar om de paar minuten een foto maken van de hemel, tien jaar lang. Dat levert dus honderden terabytes aan gegevens op. Daarom zijn we heel vroeg begonnen met systemen om dat verwerken.‘ Hiervoor werd een speciaal datacentrum in het leven geroepen, Omegacen. Dit onderzoek leidde tot een nieuwe aanpak om deze grote hoeveelheden data op te slaan en te verwerken, die uiteindelijk werd geïmplementeerd in het Astro-Wise-informatiesysteem. Een van de Target-doelen is om deze academische methoden en gereedschappen geschikt te maken voor commercieel gebruik.

Make-systeem

Data worden doorgaans door een pijplijn gehaald om tot een resultaat te komen: kalibreren, bewerking, analyse, et cetera. De oorspronkelijke gegevens verdwijnen vervolgens in een hoekje. Steeds vaker is het echter nodig of gewenst om met ’levende‘ data om te gaan. De wereld om ons heen wordt steeds meer uitgerust met sensoren die over langere tijd data blijven verzamelen. Ook worden analysemethodes steeds bijgeschaafd. ’Denk aan het IJkdijk-project, een dijk vol met sensoren waarmee je bijvoorbeeld dijkdoorbraken moet kunnen voorspellen‘, zegt Gert-Jan van Dijk, een van de initiatiefnemers en directeur van de nieuw opgerichte Target Holding, dat voor de valorisatie van de resultaten verantwoordelijk wordt. In dit soort grote hoeveelheden gegevens moeten analisten vissen naar de interessante trends en ontwikkelingen.

Het idee achter Target is om alle informatie, de bewerkingsstappen en de gegevens over de informatie te bewaren en met elkaar te koppelen. Van elk object – wat dat ook mag zijn – zijn de ruwe gegevens en de volledige bewerkingspijplijn volledig bekend, waardoor het mogelijk is om alle nieuwe ontwikkelingen direct mee te nemen in het resultaten of om nieuwe objecten op te bouwen uit bestaande deelblokken.

’Alles kan on-the-fly worden gemaakt. Dat is heel erg eigen aan wat we doen‘, zegt Valentijn. Hij trekt de vergelijking met een Make-systeem voor het builden van software. Als er een codebestand wijzigt of een compilerinstelling, zorgt dit raamwerk ervoor dat alleen de betrokken delen opnieuw worden gecompileerd. In de database werkt dit ook zo: als alles volledig bij de tijd is, wordt er niks aangepast, maar als er een onderdeel is gewijzigd, bouwt het systeem de data opnieuw op.

Handgeschreven tekst

Het systeem is objectgeoriënteerd en bouwt voort op Python. Gebruikers kunnen in deze taal scripts schrijven en via de Python-shell interactief met de data omgaan. Externe Python-pakketten zijn ook te gebruiken, zoals de Numpy-extensie voor interactieve wetenschappelijke bewerking van numerieke data. De andere helft van het systeem is een Oracle-database die alle gegevens, maar ook de Python-objecten zelf opslaat. ’Alle computing, ook input en output, gaat via een database. Daar zijn we heel erg ver in gegaan‘, vertelt Valentijn. Dat bleek gelijk een groot voordeel op te leveren bij het parallelliseren van de berekeningen, een vereiste voor de zware berekeningen die soms moeten worden uitgevoerd. ’In de database wordt alles geadministreerd en wordt dus bijgehouden wat klaar is en wat niet‘, zegt Valentijn.

De initiatiefnemers denken dat het systeem in principe geschikt is voor elk type data. Naast de optische- en radioastronomieprojecten is nu ook al de Hubble gekoppeld aan Astro-wise. In Target wordt dat verder uitgebreid. ’Het Lifelines-project van het UMCG volgt 165 duizend patiënten over een periode van dertig jaar, inclusief DNA-scans. Van een enkel persoon is dat alleen al een terabyte groot‘, zegt Van Dijk. Ook de kunstmatige-intelligentiegroep van de RUG doet mee met het Scroogle-project voor herkenning van handgeschreven tekst uit het Nationaal Archief. Het Target-project is het grootste programma van Sensor Universe, een samenwerkingsverband van onder meer Astron, Energy Valley, TNO-ICT, de RUG, de Hanzehogeschool Groningen en Wetsus voor initiatieven op het gebied van sensortechnologie.