Pieter Edelman
15 December 2017

Het verband tussen twee eigenschappen is makkelijk te onderzoeken door ze tegen elkaar uit te zetten in een grafiekje, maar veel bigdatatoepassingen hebben veel en veel meer dimensies. Delftse en Leidse onderzoekers hebben een manier gevonden om dergelijke data efficiënt visueel te verkennen. Ze denken dat ze er beter ziektes mee kunnen onderzoeken.

Sinds 2013 staat in het Leids Universitair Medisch Centrum een Cytof 2 te pronken. Het zes ton kostende apparaat, waarvan de naam staat voor ‘cytometry by time of flight’, is bedoeld om op grote schaal van individuele cellen in kaart te brengen welke eiwitten zich op hun oppervlakte bevinden. Dit is een van de bepalende eigenschappen voor de werking van het afweersysteem, en daarmee een belangrijk kenmerk voor onderzoek naar ziektes.

Inmiddels heeft het apparaat fors wat cellen gekarakteriseerd. Dat gaat in twee stappen. Eerst wordt een weefselmonster behandeld met antilichamen, eentje voor elk eiwit waarin de onderzoekers geïnteresseerd zijn. Die antilichamen zijn op hun beurt weer verbonden met een uniek zwaar metaal. Omdat antilichamen zeer specifiek binden aan hun doeleiwit, raken de cellen op die manier bekleed met een mengelmoesje van metalen die staan voor de stoffen die ze meedragen.

Vervolgens gaat het monster cel voor cel een heet plasma in, dat ze samen met hun metalen bekleding uiteenrijt tot een wolkje losse atomen en ionen. De geladen deeltjes worden met een elektrisch veld versneld richting een detector. De tijd die ze daarnaar onderweg zijn, is afhankelijk van hun massa.

Op die manier is precies te achterhalen hoeveel van elk metaal er op elke cel zat, en daarmee hoeveel van elk eiwit. De methode werkt snel en levert een berg aan data op: maar liefst tweeduizend cellen per seconde kunnen gekarakteriseerd worden op zo’n veertig verschillende eiwitten tegelijk.

Dat levert tegelijk ook een probleem op. Datasets kunnen uit miljoenen cellen bestaan, met wel honderden verschillende celtypen die allemaal verschillen in hun eiwitsamenstelling. Terwijl het voor onderzoek naar ziektes vaak juist nodig is om een handvol afwijkende cellen te vinden. Het is juist een unieke combinatie van eigenschappen die interessant is. Probeer die maar eens te vinden.

Cytosplore_2
De Delfts-Leidse Cytosplore-software geeft in eerste instantie een overzichtsbeeld van de aanwezige hoofdgroepen.

Platgeslagen

Er zijn grofweg twee aanpakken om zo’n speld in de datahooiberg te vinden. De eerste is dimensiereductie. Datapunten met slechts twee eigenschappen – zeg temperatuur en volume – kunnen makkelijk tegen elkaar worden geplot in een grafiek om verbanden zichtbaar te maken. Maar als er meer dimensies zijn, gaat dat niet. Bij sommige datasets zijn er wel duizenden parameters die tegen elkaar uitgezet moeten worden.

Bij dimensiereductie worden al die duizenden dimensies ‘platgeslagen’ naar slechts twee of drie waarden die vervolgens makkelijk te visualiseren zijn in een grafiek. De afgelopen jaren heeft een zo’n techniek pijlsnel furore gemaakt: t-sne (t-distributed stochastic neighbour embedding, ‘tiesnie’). De methode werd ontwikkeld door Laurens van der Maten, destijds aan de Universiteit van Tilburg, en Geoffrey Hinton aan de Universiteit van Toronto.

Het algoritme geeft elk meetpunt op basis van al zijn eigenschappen een twee- of driedimensionale coördinaat, waarbij punten die veel overeenkomen dicht bij elkaar komen te liggen en punten die sterk verschillen ver van elkaar af terechtkomen. Het mooie aan t-sne is dat het automatisch gaat en goede resultaten oplevert. De onderzoeker kan zijn dataset invoeren en het algoritme maakt visueel inzichtelijk waar zich clusters van gerelateerde metingen bevinden, of waar juist afwijkingen zijn. Eventuele patronen in de multidimensionale ruimte worden vertaald naar het tweedimensionale vlak.

Maar t-sne en aanverwante methodes hebben een belangrijk nadeel, en dat is dat ze eigenlijk alleen gebruikt kunnen worden voor een relatief beperkt aantal datapunten. Dat heeft te maken met de benodigde rekenkracht, maar vooral met de beperkte ruimte die er is om alle punten kwijt te kunnen. Daardoor kunnen er schijnbare relaties ontstaan die er in werkelijkheid niet zijn.

Voor zeer grote datasets, met miljoenen punten, wordt daarom typisch gekozen voor de clustering-aanpak, waarbij globale groepen van gemiddelde waardes worden opgesteld. Dit werkt goed om de hoofdlijnen te tonen, maar heeft als nadeel dat er geen individuele datapunten zijn. Met andere woorden: dergelijke methodes laten de hooiberg zien, maar gooien de spelden weg, terwijl dimensiereductie wel de spelden toont, maar alleen in een handjevol hooi.

Cytosplore_4
Door in te zoomen op een cluster, kunnen uiteindelijk individuele datapunten worden getoond.

Acht weken rekentijd

Een team van Delftse en Leidse wetenschappers heeft nu een techniek ontwikkeld die het beste van de twee werelden probeert te verenigen. De truc van hierarchical stochastic neighbour embedding (hsne) zit hem in het gebruik van een interactief systeem dat het mogelijk maakt om in en uit te zoomen op datasets.

De onderzoekers hadden hun techniek vorig jaar al gepresenteerd op de Eurographics Conference on Visualization in Groningen. Toen ging het onder meer om hyperspectrale satellietbeelden. Nu hebben ze een software-implementatie gemaakt specifiek voor het analyseren van Cytof-data, en een beschrijving gepubliceerd in Nature Communications.

De software begint zoals de clustering-aanpak met het groeperen van celtypen in hoofdgroepen, waarbij geen individuele cellen worden getoond. Vervolgens kan de onderzoeker een of meerdere clusters selecteren en naar het volgende niveau inzoomen. De groepen vallen daarbij uiteen in kleinere, specifieke clusters. Opnieuw gemiddelden, maar wel gedetailleerder. Dit kan steeds worden herhaald totdat het laagste niveau is bereikt, met individuele cellen en al hun eigenschappen.

De methode heeft niet alleen voordelen vanwege het gebruiksgemak. Ook het rekenwerk gaat veel sneller, omdat de detailcalculaties elk niveau alleen voor de geselecteerde subset uitgevoerd worden.

Dat bleek toen de onderzoekers de software uitprobeerden op een typische dataset met 5,2 miljoen cellen afkomstig uit het darmslijmvlies en bloedmonsters. Voor t-sne moesten ze de dataset verkleinen en meer dan de helft van de datapunten weggooien. Een algoritme om clusters uit de door t-sne verdeelde punten te extraheren, miste bovendien de helft. Uiteindelijk werd daardoor nog geen kwart van de beschikbare metingen gebruikt. Dat alles na acht weken rekentijd.

De nieuwe software had voor dezelfde dataset slechts een half uurtje nodig om het overzicht te genereren op een krachtige pc. De rekentijd na elke inzoom-stap is ook in de ordegrootte van minuten. Maar eigenlijk nog belangrijker was dat alle celmetingen meegenomen konden worden. Daardoor kwamen de onderzoekers ineens verschillende zeldzame celtypen tegen die de oorspronkelijke analyse moest weggooien; juist de typen die het verschil kunnen maken voor een ziekte.