Pieter Edelman
31 January 2011

Voor de terabytes aan afbeeldingen die hun telescoop zou produceren, ontwikkelde de Groningse groep van Edwin Valentijn een eigen manier om grote bergen data naar hartenlust te kneden, te filteren en te rangschikken én alle stappen later terug te halen. Dat bleek ook voor andere sensorsystemen en typen data interessant. De commerciële exploitatie is ondertussen anderhalf jaar op weg.

Het is een beetje het eenentwintigste-eeuwse equivalent van de hoogleraar instrumentenbouw die sterrenwachten van weleer hadden, zo legt Edwin Valentijn zijn titel ’hoogleraar astronomische informatietechnologie‘ uit. Die professoren namen destijds het voortouw in de ontwikkeling van steeds betere en scherpere telescopen. Dat doet tegenwoordig geen enkele universiteit meer in eigen huis; de complexiteit en kosten van de ruimteobservatioria zijn daar te hoog voor geworden.

Maar misschien nog wel sterker dan de ontwikkelingen in de optica is het aandeel van de informatietechnologie in de astronomie geëxplodeerd. Dat is het werkterrein van Valentijn. ’Vanuit de sterrenkunde zitten we heel dicht op de IT-technologie om onze waarnemingen te doen. In allerlei gebieden. Bij radiosterrenkunde was dat vanaf het begin het geval, bij optische sterrenkunde is dat gekomen toen de fotografische platen eruit gingen in de jaren tachtig. In de ruimte heb je infraroodsterrenkunde, millimetersterrenkunde, gamma ray. Al die vakgebieden gebruiken heel andere hardware, maar wel allemaal met de eigenschap dat ze ontzettend veel met IT te maken hebben. Het grootste deel van wat we in de sterrenkunde doen, is passief waarnemen van wat het heelal op ons afstuurt; we kunnen moeilijk een experiment in een lab doen. Dus wij willen altijd weer nóg dieper het heelal in en nóg verder en nóg beter. Dat betekent dat we altijd toch wel haantje de voorste zijn met nieuwe technologie.‘

Die technologie groeide uit tot de rode draad binnen Valentijns carrière. Die begon bij de sterrenwacht in Leiden en liep langs Genève en München naar Groningen – met enkele langdurige uitstapjes naar de Canarische Eilanden, waar Europa omvangrijke telescopen heeft staan. Daarbij hopte hij van het ene naar het andere vakgebied. ’Ik vind het allemaal leuk. Sterrenkunde kun je op heel veel manieren doen, dat is het leuke van het vak. Al doende ben ik steeds meer informaticaspecialist geworden. Je brengt dat vaak over van de ene discipline naar de andere.‘

Dat heeft ertoe geleid dat Valentijn er vandaag de dag nog een klus bij heeft, namelijk initiatiefnemer en coördinator van het Target-programma en oprichter van de gelijknamige holding. Met een budget van 32 miljoen van lokale overheden en projectpartners wordt een datacentrum gebouwd en de eigenwijze methode om met grote hoeveelheden gegevens om te gaan aan de man gebracht. De hoop is dat dat op termijn tot honderd nieuwe banen en honderd miljoen euro aan investeringen leidt, zowel uit de R&D-hoek als van het bedrijfsleven. Bij Target zijn de Rijksuniversiteit Groningen, het UMC Groningen, Astron, IBM, NSpyre, Oracle en start-up Heeii betrokken. Het UMCG gebruikt de Target-infrastructuur om in de levenslange medische gegevens te speuren van 165 duizend patiënten, terwijl de vakgroep Kunstmatige Intelligentie van de RUG haar inzet voor research naar digitalisering van het Nationaal Archief. Heeii bouwt aan een internetzoekmachine. En meer staat op stapel. Maar daarover is Valentijn voorlopig aan geheimhouding gebonden.

 advertorial 

System engineering @ ASML, practices and challenges

During the first online session of the System Architecting Conference, on 25 January, Frank de Lange and Tom Castenmiller (ASML) will address the role of systems engineering and discuss the essences of the roadmapping process, the holistic system design and the product generation process. Register now for free.

valentijn imgp5533

Alle hoeken van de kamer

’Eigenlijk is IT van begins af aan heel belangrijk voor ons geweest‘, vertelt Valentijn. ’Toen ik in de jaren zeventig student was, had het rekencentrum van de Universiteit Leiden een IBM 360, een mainframe met een grote bak met ponskaarten. Daarmee rekenden we de waarnemingen van Westerbork uit. We waren de grootste gebruiker van de hele universiteit, met een aandeel van zestig procent of zo.‘

Voor de directe aanleiding voor Valentijns huidige functie moeten we terug naar 1998. ’In dat jaar zijn we begonnen met ondersteuning van de Nova-toponderzoekschool. Daar zijn er vijf van in Nederland. Wij hebben toen een start gemaakt met een nieuw project: het maken van de Omegacam-camera, een grote CCD-camera met 256 megapixels. Dat was toen heel veel, maar nu al iets minder heel veel, dat gaat heel hard. Het plaatje hang daar.‘ Valentijn wijst op een poster aan de muur boven zijn bureau. ’Die camera meet een vierkante graad aan de hemel in één keer, met hele hoge resolutie. Dat is een survey-telescoop, een telescoop die dag in, dag uit – of liever: nacht in, nacht uit – opnamen maakt van de hemel. Iedere driehonderd seconden, acht uur per nacht, driehonderd nachten per jaar en dat tien jaar lang.

Dat geeft gigantisch veel data. ’We begonnen met een schatting van honderd terabyte of zo. Dat was in ieder geval tien jaar geleden héél erg veel. Toen dachten we: ’Nou, we gaan nu zo‘n ander ballpark weer in van ontzettend veel data, dat willen graag goed aanpakken.‘ Want we hebben ook gezien hoe het niet moet.‘

valentijn imgp5521

Met name de administratie, het beheer van de verzamelde data, is iets wat nog wel eens te wensen overlaat. ’Als je data van een satelliet krijgt, moeten er wel twintig behandelingen gebeuren voordat je een goed product hebt. Dat gebeurt in een pijplijn met allemaal stapjes. Maar code verandert, er komen nieuwe producten bij, de kalibraties veranderen, eigenlijk alles verandert. Tijdens het productieproces zijn er ook wetenschappers bezig aanpassingen te doen als ze beter inzicht krijgen in hoe die data eruitziet. Je bent dus bezig met een levend iets en daar was eigenlijk nooit een goed administratiesysteem voor. Dat was een belangrijke reden waarom het bij een heleboel systemen misging. En als het klein is, ach, dan valt het allemaal wel mee. Maar als je nou gaat praten over enorm grote bestanden met allerlei productiemodi en waar het heel veel tijd kost om in te zoeken, dan gaat dat niet meer.‘

Daarnaast waren er ook ’gewoon‘ de vraagstukken rond schaalbaarheid, efficiëntie en rekenkracht. Een technologische oplossing las dus voor de hand. ’Wij hadden heel sterk de beleving dat we iets schaalbaars en distribueerbaars wilden, maar ook administreerbaar. Dus dat we continu weten wat we nu precies doen met de data. We hebben toen met vijf personen twee jaar lang bij wijze van spreken alle hoeken van de kamer gezien, twee jaar lang zijn we aan het designen geweest en negen van de tien keer hebben we gezegd: ’Nee, zo moet het niet.‘ En uiteindelijk hebben we een heel nieuw informatiesysteem ontworpen, dat als eigenschap heeft dat het schaalbaar, distribueerbaar, modulair en heel goed traceerbaar is.‘ Met deze technologie werd in Groningen het Omegacen-datacentrum ingericht en vervolgens in 2003 met een subsidie van het Vijfde Kaderprogramma een Europabreed systeem, Astrowise. Klaar voor de eerste beelden van de Omegacam-telescoop.

Een stukje tekst

Toen sloeg het noodlot toe. ’De primaire spiegel van de telescoop kwam in duizend stukjes in Chili aan. Dat betekende twee jaar vertraging. Dat was nog nooit gebeurd. En vervolgens is het mirror support-systeem, een heel intelligent systeem met allemaal pistons dat het doorbuigen van de spiegel moet compenseren, in een kist vol zeewater aangekomen, verroest. Dus het is een dramatisch project geworden. Uiteindelijk gaat het dit jaar toch gebeuren. Alles wordt op dit moment geïnstalleerd.‘

Maar in het drama school de geboorte van Target. ’Mijn groep had nu meer de handen vrij en we hebben eigenlijk van de nood een deugd gemaakt. We hadden dit fantastische systeem en we zijn het op allerlei andere gebieden gaan toepassen.‘ Het begon uiteraard nog wel binnen de eigen gelederen. ’We hebben van andere telescopen data ge-ingest in het systeem. Van Japanse telescopen en andere imagers. Met de Hubble-ruimtetelescoop hebben we ook een project gedaan. Dat betrof 125 orbits, een groot project voor de Hubble. Daar werkten tientallen mensen aan. Vervolgens zijn we ook met de Lofar-radiotelescoop begonnen. Dat was voor ons een belangrijke mijlpaal omdat dat binnen de astronomie een heel andere tak van sport is.‘

Langzaam groeide bij Valentijn het besef dat hij een oplossing in handen had die ook in heel andere takken van wetenschap bruikbaar is. ’De eerste pilot buiten de sterrenkunde was met de vakgroep Kunstmatige Intelligentie hier bij de RUG, met een project dat nu Monk heet. Daarbij draait het om handgeschreven-tekstherkenning. Dat is nog steeds een heel moeilijk iets en daar wordt ook nog veel onderzoek naar gedaan. Professor Lambert Schoonmaker heeft er een eigen methode voor ontwikkeld, waarin stukjes tekst met elkaar vergeleken worden. Als je daar over na gaat denken en je gaat daar met elkaar over praten, dan blijkt ineens dat het allemaal verdraaid veel lijkt op wat we in de sterrenkunde doen. Je werkt immers met digitale beelden, daar wordt contrast enhancement op gedaan, het wordt een beetje gedraaid, de kantlijnen en vlekjes worden eruit gehaald. Daar zitten ontzettend veel parallellen in met de sterrenkunde. En vervolgens worden er events uit gehaald. Onze events zijn de sterren; bij tekst is het een stukje tekst. Dus op een bepaald abstractieniveau sluit het eigenlijk veel meer aan dan je zou vermoeden.‘

Unix Make

De Target-architectuur bestaat in een notendop uit verschillende datacentra waar de gegevens zijn opgeslagen en rekenclusters om de bewerkingen erop uit te kunnen voeren. Elk project dat Target gebruikt, heeft zijn eigen softwarebibliotheek met relevante functies, en via de Python-programmeertaal kunnen gebruikers op objectgeoriënteerde manier bewerkingen opzetten – als het moet interactief. De kracht van de aanpak is dat alles, maar dan ook alles, via een database wordt beheerd: de ruwe data, de tussenliggende stappen, maar ook het type bewerkingen en zelfs de versie van de software waarmee ze zijn uitgevoerd. ’Een ingenieur van IBM vatte de aanpak laatst in een presentatie mooi samen met de term ’data over data‘. We schamen ons er niet voor als dertig procent van onze data data over data is. Wij modelleren hoe die data aan elkaar vasthangen, wat de afhankelijkheden zijn. Dat heeft een vakterm: extreme data lineage.‘

’Het grappige is, het hele systeem is op die manier gemaakt. Dus alles doen we op die manier. De oneliner zou zijn: het maakt op een gegeven manier niet meer uit of iets is uitgerekend, want het systeem weet hoe dat opnieuw moet. Een soort spreadsheet bijna. Ik heb ooit een paper gepubliceerd met de titel ’The universe as a spreadsheet‘. De gebruiker vraagt via een Python-regel een beeld op, waarna het systeem kijkt of het dat heeft. Is dat niet zo, dan wordt het helemaal opnieuw gemaakt. Is het beeld er wel, dan gaat Target alle afhankelijkheden af en als de gebruiker vindt dat het niet meer up-to-date genoeg is, rekent het systeem alles opnieuw uit à la Unix Make.‘

valentijn imgp5526

Het heilige ding

Wat begon als een betere methode om grote hoeveelheden data te beheren, bleek al snel een een heel andere manier van met data omgaan te betekenen. ’We hebben eigenlijk een nieuwe abstractie kunnen bedenken die je heel erg nodig hebt voor grote massieve systemen. Vroeger deden we altijd aan data-pushing: we hadden een hele grote bak data van een experiment en dat moest allemaal door de pijplijn heen worden gejaagd. Maar als je met zo veel data werkt, wordt dat eigenlijk een beetje onzinnig. Vaak is het zo dat de code allang weer verouderd is als je ermee klaar bent en het duurt een jaar voordat alles weer is verwerkt. Daarom hebben we eigenlijk het data-pulling-mechanisme bedacht: de gebruiker vraagt om resultaat en het systeem werkt van achter naar voren. We noemen dat backward chaining.‘

Valentijn wijst naar een presentatie op zijn beeldscherm die een aantal plaatjes met grijze vlekjes laat zien: afbeeldingen van de telescoop. ’Door data lineage kunnen we nu bijvoorbeeld heel simpel webservices maken waarmee je met een druk op de knop alle stadia van de pijplijn van dat ene stukje van de image op je scherm krijgt, inclusief alle kalibratieframes die zijn gebruikt. Hier kun je bijvoorbeeld zien dat er een dode pixel zit. Daarmee kun je controleren of wat je waarneemt echt is, of dat het niet artificieel door de pijplijn is geïntroduceerd. Hier zie je het effect van een cosmic ray, een hoogenergetisch gedeelte dat op de CCD inslaat vlak naast die ster. En dan zie je dus dat dat tijdens het reductieproces eruit is gehaald.‘

Valentijn bladert verder – opnieuw grijze plaatjes met vlekjes. ’Hier heb ik een voorbeeld dat hetzelfde object laat zien met tien verschillende kleuren: in het ultraviolet, het groen en het rood, het nabij-infrarood, het gaat steeds verder in het infrarood tot twee micrometer. Dat is een heel andere dwarsdoorsnede door die enorme zee data. Op één image staan honderdduizend objecten, dus op die tien plaatjes staan een miljoen objecten. Het bijzondere is dat hier objecten bij zitten die wel in het infrarood te zien zijn, maar niet in het visuele gebied. Dat is een eigenschap van objecten die aan de rand van het heelal staan. Dit is dus een manier om objecten te vinden die ontiegelijk ver weg staan. Met behulp van die data lineage kunnen we razendsnel van dit soort cut-out-verzamelingen maken. Je kunt ook in plaats van die ster vragen om alle data van een bepaalde nacht. Of alle data van een bepaald jaar, dan is die wel even aan het rekenen.‘

’Als ik nu terugkijk, was dit eigenlijk het begin van de datacentrische aanpak. Vroeger was de mainframe en later het workstation het heilige ding. Alles was computercentrisch: je bouwde alles rond de processor, daar stop je iets in en dan komt er iets uit. Met de abstracties die we nu hebben, is de computer wel heel belangrijk en ook heel nodig en heel interessant en heel spannend, maar het is eigenlijk nog veel belangrijker om aandacht te besteden aan data. En het heeft ook de consequentie dat de ruwe data heilig zijn. De afgeleide data, ach, die kun je zo opnieuw maken.‘

Cellofaantje eromheen

De Target-onderneming ging in 2009 van start en heeft nu een capaciteit van anderhalve petabyte geïnstalleerd. ’In feite hebben we de infrastructuur voor drie petabyte nu staan, maar het is altijd een kat-en-muisspelletje van zo laat mogelijk die harde schijven kopen, want dat scheelt altijd weer een hoop kosten. We hebben in totaal drie fases. Het doel van deze eerste fase was om een aantal pilots te doen bij bedrijven. Die lopen nu.‘

Ondertussen gaat de ontwikkeling van de Target-technologie gewoon door binnen Valentijns onderzoeksgroep. Dat de academische gebruikers gelijk ook de ontwikkelaars zijn, is volgens de hoogleraar een groot voordeel. ’Je kunt dit soort dingen alleen maar goed doen als je operaties en research heel dicht tegen elkaar aanzet. Je ziet vaak dat bedrijven die activiteiten ontkoppelen als ze heel groot worden. Wij hebben eigenlijk de omgekeerde toverformule, waardoor mensen in operaties niet verveeld raken en de mensen in research weten waar de problemen liggen. Het zal nooit zo zijn in onze groep dat wij alleen op operaties zouden draaien. Dat zou dodelijk zijn. We zijn nu ook betrokken bij toekomstige grote projecten, zoals de optische Extremely Large Telescope van de Eso met een diameter van 42 meter en Esa‘s Euclid-satelliet die – als die geselecteerd wordt – volgens planning in 2018 gelanceerd wordt. De Nederlandse bijdrage aan de satelliet bestaat geheel uit de datahandling – zonder instrumenthardware. Dat is een novum.‘

Een van de nieuwe ontwikkelingslijnen is visualisatie. ’Daar heb je een beetje dezelfde problemen met schaalbaarheid bij grote hoeveelheden data, dus ook daar wil je eerst gaan selecteren en filteren alvorens te visualiseren. En dat filteren moet eigenlijk interactief gebeuren. Dus we zijn de virtualisatiewereld aan het koppelen aan het databasegebeuren. Deze query-driven visualisation werkt nu toe naar een apotheose.‘

Aan de andere kant wordt er nog gesleuteld om de technologie geschikt te maken om aan anderen aan te bieden. Het Astrowise-systeem was oorspronkelijk opgezet voor sterrenkunde binnen een academische setting. De astronomiesoftware en de algemene functionaliteit zijn op een gegeven moment uit elkaar getrokken toen bleek dat het systeem van nut kon zijn voor anderen. ’We zijn nu ook de technologie zo aan het inrichten dat we er veel makkelijker een cellofaantje omheen kunnen doen, dat we dat veel makkelijker gewoon bij een bedrijf kunnen planten.‘

Natuurlijk komt er voor derden nog wel meer bij kijken dan alleen de software. ’Bij een nieuw project gaan we eerst een datamodel maken. Van dat datamodel maken we een objectmodel waarbij alle overerving ook duidelijk is, zodat je het objectgeoriënteerd kunt programmeren. En dat stoppen we in de database. We geven ook cursussen in de technieken die we hebben geleerd. En een heleboel van het werk is ook projectmanagement. Al die technologie is natuurlijk grotendeels sociologie. We kunnen allang alles, maar de reden dat we niet alles doen, is omdat we niet zo goed afspraakjes met elkaar hebben gemaakt en iedereen het op zijn eigen maniertje wil doen.‘

Wat dan rest, is om op de nieuwe manier met de data om te gaan. ’Het is een attitude. Als je jezelf eenmaal hebt aangeleerd om datacentrisch te denken, om je data lineage bij te houden en alle processing via een database te laten lopen, dan gaat er een wereld voor je open.‘