Bits&Chips

Aan de top van de databergen

5 september 2017 

Met de combinatie van data science en process science weet TUE-hoogleraar Wil van der Aalst allerlei inzichten te genereren uit logbestanden over van alles en nog wat. Bedrijven, ziekenhuizen, publieke instellingen: iedereen kan daarvan profiteren. Met die aanpak behoort hij tot de top van zijn vakgebied. Dit voorjaar kreeg hij een beurs van vijf miljoen euro om over te stappen naar de universiteit van Aken.

Dat Wil van der Aalst een fanatiek bergbeklimmer is, lijdt geen twijfel; het gros van de foto’s in zijn werkkamer toont hem op een bergtop. Een mooiere metafoor voor zijn wetenschappelijke carrière is bijna niet denkbaar; de TUE-hoogleraar is de meest geciteerde wetenschapper buiten de VS - niet alleen van zijn vakgebied, maar in het hele ict-domein - en heeft onder meer lidmaatschappen van de KNAW, de Academia Europeae en een eredoctoraat in Hasselt. Hij is bovendien wetenschappelijk directeur van het Data Science Center (DSCE) van de TUE, een universiteitsbreed consortium waar zo’n dertig onderzoeksgroepen bij betrokken zijn. En hij heeft net een Alexander von Humboldt-beurs van vijf miljoen euro uit Duitsland gekregen om aan de RWTH Aachen University een nieuwe groep op te zetten.

Van der Aalsts vakgebied draait dan ook om een onderwerp dat momenteel volop in de belangstelling staat: data, volgens sommigen de olie van de 21e eeuw. Een extreem breed onderwerp, zo wordt al snel duidelijk: ‘Data science is alles wat zich bezighoudt met het vertalen van data in waarden. Dan kun je denken aan databases, machine learning, data mining, process mining, visualisatie of big data-algoritmes. Dat zijn allemaal dingen die binnen de informatica liggen’, somt de hoogleraar op. ‘Daarnaast zijn er natuurlijk ook hele takken van de wiskunde die zich hiermee bezighouden, zoals statistiek. Zaken als ethiek, privacy en security zijn natuurlijk ook erg belangrijk.’

Met zijn dubbele pet op is Van der Aalst hier op twee niveaus actief. Het DSCE benadert de datawetenschappen vanuit het meest brede perspectief. De TUE heeft het in 2013 opgericht als tweede grote virtuele instituut op de Eindhovense universiteit, naast het High Tech Systems Center. In totaal zijn er zo’n vierhonderdvijftig mensen bij betrokken - een beetje afhankelijk van hoe je telt. ‘Industrial Design is bijvoorbeeld een faculteit die heel actief is in het centrum, omdat zij bezig zijn met intelligente producten die steeds dichter op de mens zitten. De meeste mensen hebben tegenwoordig horloges die van alles en nog wat meten, en dat zal steeds verder gaan met smart homes, smart city’s en dergelijke’, geeft Van der Aalst als voorbeeld.

Het DSCE doet tevens dienst als aanspreekpunt voor de buitenwereld en diens datagerelateerde vraagstukken. ‘We proberen steeds projecten op te zetten met andere partijen. We hebben bijvoorbeeld een data science flagship waarbij achttien promovendi binnen Philips werken aan data science-onderwerpen, en daar zijn diverse onderzoeksgroepen van het DSCE bij betrokken.’

Schiphol en Heathrow

Met zijn hoogleraarbaret op kijkt Van der Aalst uiteraard naar een beperkter onderwerp, dat zijn oorsprong vindt in process science, ofwel het modelleren van processen. ‘Dan moet je typisch denken aan administratieve processen, dus hoe wordt een belastingaangifte afgehandeld of hoe worden patiënten in een ziekenhuis behandeld. Daar wil je de eigenschappen van een model bewijzen, bijvoorbeeld dat het afhandelen van een belastingaangifte altijd tot een goed einde komt en dat er niet iets eindeloos blijft hangen.’

Toen hij in de jaren tachtig aan zijn promotieonderzoek begon, richtte Van der Aalst zich puur op dit theoretische werk, dat nog helemaal niks met data te maken had. Op een gegeven moment verschoof zijn aandacht wat meer de praktische kant op, richting de workflowmanagementsystemen waarmee dit soort procesmodellen ontwikkeld kunnen worden. ‘Maar eind jaren negentig besefte ik dat als we echt willen begrijpen hoe die processen werken, dat we dan naar de data moeten kijken. De praktijk bleek veel weerbarstiger dan onze modellen; de processen zitten in de hoofden van de mensen en de it-systemen zijn alleen maar gereedschap.’

Zodoende stortte Van der Aalst zich op process mining, ofwel het extraheren van procesmodellen uit de data in plaats van het expliciet opstellen ervan. ‘Kijk even mee’, zegt hij, terwijl hij op zijn pc een applicatie opent. ‘Dit is onze process mining-tool, ons platform op basis waarvan we onze nieuwe algoritmes ontwikkelen. Dit is opensource, daar werken we al een jaar of vijftien tot twintig aan.’

Van der Aalst laadt een bestand in zijn tool, een log van een woningcorporatie. ‘Wij hebben bij de IEEE ook een initiatief geleid voor een standaard formaat voor eventlogs. Daarin staat steeds: iets gebeurt, met een bepaald iets, op een bepaald tijdstip. Student Jansen deed dit tentamen op die dag, of voor een bepaalde patiënt is een röntgenfoto gemaakt op dat tijdstip. Of het gaat om toepassingen in de hightech. Vanderlande betaalt twee van onze promovendi om zich bezig te houden met de gedragsanalyse van hun systemen, bijvoorbeeld voor de automatisering van de magazijnen van Albert Heijn of de bagageafhandeling voor luchthavens als Schiphol en Heathrow. Daar kan een eventlog gaan om wanneer een stuk bagage een bepaalde sensor passeert.’

Een paar muisklikken en er verschijnen per appartement traces met alle gebeurtenissen rond het wisselen van een bewoner. Direct is duidelijk dat niet elke woning hetzelfde traject doorloopt. ‘Je begint vaak gewoon met visualiseren om een gevoel te krijgen voor de onderliggende data. Daar heb je hiermee duizend-en-een opties voor’, legt Van der Aalst uit. Hij klikt nog wat verder en de traces verschijnen samen in een visueel overzicht, waarbij opvalt dat veel acties samenvallen in de tijd. ‘Je ziet hier vrij snel dat dingen, gewenst of ongewenst, gebatcht worden. Een heleboel appartementen zitten weken te wachten, en dan op een namiddag worden er voor al die dingen twee activiteiten uitgevoerd en het is klaar.’

Vervolgens gaat Van der Aalst over tot het echte werk: het minen van het procesmodel. Op het scherm verschijnt een flowdiagram, waartussen zich bolletjes bewegen. ‘Dit is het typische proces dat wordt uitgevoerd. Dat begint met iemand die zijn huur opzegt en eindigt met de verhuur aan iemand anders. Dit wordt gegenereerd uit de data, er is niks gemodelleerd.’

Van der Aalst zoomt in op een van de stappen, die zich spontaan opsplitst in kleinere delen. Er verschijnt ook een takje buiten de happy flow om. ‘Daar zie je dat het maken van een brief twaalf keer is overgeslagen. Ik heb daar niks aan gemodelleerd, dit zijn gewoon outliers. Ik kan er weer op klikken om te filteren op die cases. En dan zie je weer dat het een stap eerder al fout is gegaan. Zo interacteer je steeds met de data om te zien waar de knelpunten zitten.’

Crime room

De korte demo laat zien waar het onderzoeksgebied van Van der Aalst om draait. ‘Wij zitten op de brug tussen data en processen. Het is eigenlijk verbazingwekkend hoe weinig mensen aan dat gebied werken. Het gaat verder dan standaard data mining waarbij je zegt: oké, als Pietje dit boek koopt, zal hij ook wel dat boek kopen. Deze procesmodellen zijn veel complexer’, vertelt Van der Aalst.

Toch is de demo maar een topje van de ijsberg; in totaal zijn er al zo’n vijftienhonderd plug-ins voor de tool, elk weer met andere analyses en algoritmes die de groep ontwikkelde. En daar wordt dankbaar gebruik van gemaakt. Niet alleen door de eindgebruikers waarmee de groep samenwerkt, zoals Vanderlande of een ziekenhuis, maar ook door bedrijven die zelf software voor procesanalyse ontwikkelen. ‘Op dit moment zijn er meer dan vijfentwintig softwareleveranciers die process mining-software leveren op basis van onze ideeën’, meldt Van der Aalst.

‘We hadden pas een gebruikersconferentie van Disco, daar waren tweehonderdvijftig mensen aanwezig. Een andere bekende is Celonis, in 2015 het snelst groeiende it-bedrijf in Duitsland. Bij Siemens gebruiken vijfentwintighonderd mensen hun software. Dat zijn hele mooie verhalen voor ons om te beseffen dat het op een hele grote schaal wordt gebruikt.’

Het past in de trend van een algemeen groeiend besef van data science. ‘Toen ik in dit gebied begon, konden mensen zich niet voorstellen wat er zou gebeuren in termen van data’, kijkt Van der Aalst terug. ‘In onze eerste toepassing bouwden we eventlogs met de hand op doordat mensen op het dossier schreven wanneer ze begonnen en klaar waren, en dat voerden we vervolgens in onze software in. Maar die data zitten tegenwoordig overal. Op het moment dat een koffer in een luchthaven een sensor passeert, wordt er een event geregistreerd.’

Het is dan ook niet gek dat er meer en meer initiatieven rond data science ontstaan. ‘Het DSCE was de eerste op zijn gebied, maar nu zie je dat elke zichzelf respecterende universiteit zoiets heeft. Ook Brabant probeert zich te profileren op dit gebied. De universiteiten in Eindhoven en Tilburg hebben samen de Jheronimus Academy of Data Science opgezet, met allerlei data science-activiteiten in Den Bosch. Ze hebben daar bijvoorbeeld een soort van crime room waar ze proberen misdaad op te sporen door gegevens van politie, belasting enzovoorts te combineren.’

Meest ervaren chirurg

En nu wil de universiteit van Aken dus ook flink gaan inzetten op het onderwerp. ‘Aken is ontzettend sterk in de harde informatica, zit daar in de top drie van Duitsland. En ze zijn er heel erg sterk in fysieke systemen zoals productiesystemen, die steeds meer te maken krijgen met sensoren en data. Dus het is heel logisch dat ze meer op het gebied van data science willen doen, daar zijn ze nu nog niet heel actief in’, legt Van der Aalst uit.

De Alexander von Humboldt-beurs die Van der Aalst krijgt, is onderdeel van een Exzellenz-programma waarmee Duitsland toponderzoekers wil binnenhalen. Het is de hoogste wetenschappelijke prijs in Duitsland, en de vijf miljoen euro die ermee is gemoeid, is vrij te besteden: ‘Als ik daarvoor twintig programmeurs wil aanstellen, doe ik dat; als ik grote it-systemen wil kopen, kan dat ook’, vertelt Van der Aalst.

De Akense universiteit, die hem hiervoor had voorgedragen, creëert bovendien een leerstoel en legt zelf ook nog de nodige middelen op tafel. Als het allemaal goed gaat - er moet nog het een en ander uitonderhandeld worden - gaat Van der Aalst per 1 januari aan de slag in Aken.

De nieuwe middelen komen goed van pas voor een aantal onderwerpen waaraan Van der Aalst nu al werkt. ‘We hebben bijvoorbeeld een onderzoekslijn om onze analyses domweg op veel grotere schaal te doen. Het werkt nu prima als je miljoenen records hebt, maar als je miljarden records hebt, dan lukt dat niet meer op een laptop. Daarvoor moet je het probleem op de juiste manier ophakken in kleinere problemen.’

Een andere lijn is wat Van der Aalst responsible data science noemt. ‘Daar doen we nog niet zo veel aan, maar daar ligt nog een hele wereld. Hoe zorg je ervoor dat je wel de positieve effecten krijgt van het gebruik van data, maar niet de negatieve? Ik zou bijvoorbeeld analyses willen kunnen doen waarbij ik de events op het moment dat ze ontstaan meteen weggooi en niemand ze ooit meer kan terughalen, terwijl ik wel nog steeds alle garanties heb rond mijn uitkomsten.’

‘Het gaat er bijvoorbeeld om te zorgen dat je conclusies eerlijk zijn. Op de operatietafel van de meest ervaren chirurg sterven de meeste mensen omdat die het moeilijkste werk krijgt. Dus het is niet genoeg om domweg de performance te meten.’

Pizzabodem uit Amerika

Het Duitse aanbod is er een dat Van der Aalst niet kan weigeren, al is het wel een beetje met gemengde gevoelens. Ten eerste omdat hij ‘echt wel verknocht’ is aan de TU Eindhoven. Maar er speelt nog iets anders mee. ‘Ik heb de afgelopen jaren steeds proberen aan te geven dat Nederland te weinig investeert in de ict-basis. Ik gebruik vaak de metafoor van een pizza. Als je het hebt over een oplossing met data, of dat nu het systeem van Vanderlande is of wat dan ook, dan maken we ons in Nederland vooral erg druk om de topping en we gaan ervan uit dat de bodem gewoon uit Amerika te halen is. Als je hier iets wilt doen, dan moet het voor Industrie 4.0 zijn of voor het bestrijden van kanker.’

‘We zijn dus heel erg goed in het tóépassen van ict, maar we hebben er heel veel moeite mee om iets te doen puur voor de technologie. Er zijn in Nederland bijvoorbeeld vrijwel geen databasehoogleraren meer. Alle softwaresystemen die het internetverkeer genereren, zijn Amerikaans. De platforms op basis waarvan wij big-data-dingen doen, IOS, Android: allemaal onder controle van Amerikaanse bedrijven. Ook de databases die we gebruiken, komen uit Amerika.’

‘Maar data science is op dit moment dé belangrijkste technologie in alles wat er gebeurt; alle innovaties komen uit dat gebied. Met een houding van ‘we passen gewoon toe wat anderen hebben bedacht’ gaat het wel een tijdje goed, maar op een gegeven moment stopt dat. Dus in die zin is het wel cynisch dat ik vertrek nadat ik steeds geclaimd heb dat dat we in Nederland meer aan die bodem moeten doen.’

Abonneer direct op onze nieuwsbrief

abonneren

Info-middag SME Instruments

25 juni

Eindhoven

Machine vision for mechatronic systems

3 juli - 4 juli

Eindhoven

Machine vision for mechatronic systems

3 juli - 4 november

Eindhoven