Albert-Jan Boonstra is r&d-programmamanager technisch onderzoek bij Astron, het Nederlands instituut voor radioastronomie.

15 January

Radioastronomie onderzoekt niet alleen processen in extreme omstandigheden, de waarnemingen leveren ook extreem veel data op. De door Astron ontwikkelde en beheerde Lofar-radiotelescoop produceert jaarlijks ongeveer zeven petabytes aan gecomprimeerde data. Om die extreme hoeveelheden te kunnen verwerken, biedt kunstmatige intelligentie uitkomst.

Astronomische telescopen worden steeds krachtiger. Ze hebben de afgelopen honderd jaar onze kennis van het heelal en ons inzicht in onze plek daarin sterk vergroot. We hebben ontdekt dat noch de aarde noch de zon in het centrum van het universum staat, dat er duizenden planeten zijn buiten ons eigen zonnestelsel, dat het heelal uitdijt en dat wij bestaan uit sterrenstof, de resten van geëxplodeerde sterren. Vorig jaar augustus hebben we ontdekt dat goud ontstaat bij de botsing van neutronensterren.

En onze zoektocht gaat door, want er zijn nog heel veel raadsels. Bijvoorbeeld wanneer en hoe de eerste sterren en sterrenstelsels zich hebben gevormd, en of er leven is of kan bestaan op exoplaneten. Het heelal is bovendien te beschouwen als een soort natuurkundig laboratorium met extreme condities die we op aarde nooit zullen kunnen nabootsen.

Radiotelescopen zijn sinds het midden van de vorige eeuw ongeveer een miljoen keer gevoeliger geworden en deze trend houdt vooralsnog aan. Betere versterkers voegen minder ruis toe aan de zwakke waargenomen signalen. Snellere digitale systemen vergroten niet alleen de gevoeligheid, maar ook de beeldscherpte en het beeldveld – de grootte van de hemelfoto.

De Lofar-radiotelescoop, met 38 Nederlandse en 13 buitenlandse locaties (stations)
Een Nederlands antennestation. De Lofar-telescoop bestaat uit zo’n honderdduizend antennes. Elk station is een phased array, een verzameling ‘platte’ antennes waarvan de signalen met de juiste synchronisatie worden gecombineerd en opgeteld in een elektronicakabinet. Door de antennesignalen samen te voegen, wordt de telescoop gevoeliger. Bovendien reduceert het de bandbreedte tot ongeveer drie gigabit per seconde. De 51 Lofar-stations sturen de signalen via glasvezelkabels naar de centrale computer (correlator) bij de Rijksuniversiteit Groningen, die de data van elk station met elk ander station combineert tot een soort hologram. Dit bevat de informatie die de astronomen kunnen omzetten in hemelkaarten voor hun onderzoek. Elke één tot tien seconden produceert de correlator zo’n hologram van 51 bij 51 elementen, parallel voor enkele duizenden frequentiekanalen. Dat levert per dag al gauw zo’n tien tot honderd terabytes aan gegevens op. Foto: Top-Foto, Assen

De keerzijde van dit alles is dat het lastiger wordt om de almaar groeiende databerg te verwerken. De Low Frequency Array-radiotelescoop (Lofar) produceert per dag typisch zo’n tien terabytes en per jaar ongeveer zeven petabytes aan gecomprimeerde gegevens. Astronomische datasets zijn inmiddels zo groot geworden dat we ze niet meer alleen ‘handmatig’ kunnen bewerken en interpreteren. Kunstmatige intelligentie zal hierbij een belangrijke rol gaan spelen.

Beeldenzee

In een grote telescoop als Lofar kan er technisch van alles misgaan. Het is echter erg lastig om de verschillende foutpatronen te herkennen. Samen met het Netherlands Escience Center in Amsterdam hebben we onderzocht hoe we de waarneem-kwaliteitscontrole kunnen verbeteren.

Een standaard Lofar-waarneming van twaalf uur levert ongeveer 2500 plaatjes op die de waarneemresultaten grafisch weergeven. Dit zijn vooral spectrogrammen, die de waargenomen signaalintensiteit tonen als functie van tijd en frequentie.

Een standaard Lofar-observatie van twaalf uur levert, naast tien tot honderd terabytes aan gegevens, ongeveer 2500 plaatjes op die de waarneemresultaten grafisch weergeven. Hierop zijn allerlei patronen te zien. Een aantal daarvan wordt veroorzaakt door astronomische bronnen, en dat is nu juist waar we naar op zoek zijn. Andere patronen worden veroorzaakt door radiozenders of door verstoringen in het systeem. De meeste zijn zichtbaar in meerdere spectrogrammen. Hoewel het menselijk oog en brein prima zijn toegerust om de patronen te analyseren, is dit ondoenlijk vanwege de schaal: elke dag 2500 plaatjes voor elke meting doorpluizen op zoek naar systeemstoringen, dat is niet te doen.

We hebben ons daarom de vraag gesteld: hoe kunnen we de beeldenzee terugbrengen tot tien à twintig karakteristieke patronen? Christiaan Meijer van het Netherlands Escience Center selecteerde hiervoor convolutionele neurale netwerken, op biologisch-visuele processen geïnspireerde netwerken. Ze bestaan uit een aantal lagen neuronen, gemodelleerd als blokjes met eenvoudige relaties tussen de inputs en outputs.

Een auto-encodernetwerk wordt getraind met als randvoorwaarde dat de output X’ zo veel mogelijk lijkt op de input X. De middelste laag Z bevat minder neuronen dan de buitenste lagen, wat ervoor zorgt dat de karakteristieken van de spectrogrammen worden gevat in een gecomprimeerde hoeveelheid data.

Zo’n netwerk moeten we trainen voordat we het kunnen inzetten in de Lofar-signaalketen. Omdat we geen a priori kennis van de data wilden toevoegen (te duur), konden we de klassieke supervised machine learning-methodes niet gebruiken. We hebben daarom gekozen voor een auto-encodernetwerk. Dit meerlaagse neurale netwerk hebben we getraind met ruim honderdvijftig Lofar-datasets en vervolgens toegepast op recente waarnemingen. De resultaten zijn spectaculair: karakteristieke beeldpatronen in de 2500 spectrogrammen zijn netjes samengevoegd in een handjevol clusters.

Spectrogrammen weergegeven in clusters (links) en telescoopstations (rechts), waarbij de kleuren en verbindingslijnen aangeven of ze deel uitmaken van een van de clusters. De logaritmische schaal rechts maakt dat zowel de stations in het centrale Lofar-gebied als de ver weg gelegen stations in bijvoorbeeld Ierland en Polen goed zichtbaar zijn. Het bruine cluster linksboven is geselecteerd. Rechts is te zien dat het onderste station hiervan de oorzaak is.
De telescoop is na 140 minuten uitgevallen.

Volgende stappen

In plaats van 2500 plaatjes door te ploegen, hoeven we in het vervolg alleen maar door een handjevol karakteristieke plaatjes te kijken om systeemfouten te vinden. Dat doen we nu nog handmatig, maar met neurale netwerken is meer mogelijk. Als we van de meest voorkomende patronen de oorzaken in kaart hebben gebracht, kunnen we een woordenboek van effecten samenstellen. Dit woordenboek kunnen we dan koppelen aan het neurale net en dan automatisch een diagnose laten stellen.

Nu voeren we de clustering nog achteraf uit. De volgende stap is om alles zodanig te versnellen dat we een proces met Lofar-waarnemingen mee kunnen laten lopen dat realtime de status van de observaties kan doorgeven. Zover is het nog niet, maar als het aan ons ligt, gaat het er wel komen. Eerder dit jaar is er een nieuw NWO-project gestart, Efficient Deep Learning (EDL), waarin we de volgende stappen zullen zetten.

Kunstmatige intelligentie zullen we in de toekomst steeds harder nodig hebben. De datavolumes nemen alleen maar toe. De internationale Square Kilometre Array-radiotelescoop die het komende decennium verrijst in Zuid-Afrika en West-Australië gaat naar schatting zelfs zo’n driehonderd petabytes per jaar produceren. Ai-technieken in de dataverwerking zullen een essentiële bijdrage leveren om zo veel mogelijk wetenschap uit de waarneemgegevens te halen.

Edited by Nieke Roos