‘Talent is het schaarse goed in de ai-wereld’

Pieter Edelman

29 January 2019

Nergens is de scheidslijn tussen fundamenteel onderzoek en toepassing zo dun als in de hedendaagse ai-wereld. UvA-hoogleraar en vicepresident Technologies bij Qualcomm Max Welling over de bijzondere relatie tussen industrie en academia, de praktische limieten aan machine learning, hybride modellen, mooie wiskunde en de richting van de huidige ai-research.

De mogelijkheden van deep learning lijken soms wel eindeloos. Op de preprint-servers verschijnen met regelmaat van de klok spectaculaire nieuwe resultaten die dankzij de deep learning-aanpak mogelijk worden: fotorealistisch beelden genereren, teksten vertalen met menselijke nauwkeurigheid, bedrieglijk echte spraak produceren, noem maar op. Vaak mogelijk gemaakt door de ai-modellen nóg weer wat groter en complexer te maken. En de rek is er nog lang niet uit.

Maar dat geldt niet voor de praktische inzetbaarheid ervan. De rekenkracht die nodig is om die modellen door te rekenen, gooit roet in het eten. Een geavanceerd neuraal netwerk kan wellicht heel goed geluiden filteren voor een gehoorapparaat, maar zo’n device is zeer beperkt in zijn batterijgebruik en thermische limieten. En ook economisch zijn er beperkingen. ‘Stel dat je een ai-gebaseerd advertentiemodel ontwikkelt in de cloud, maar dat je meer energie moet spenderen aan een voorspelling dan dat die opbrengt. Dan houdt het op’, vertelt Max Welling.

Max Welling 01 foto Bob Bronshoff — Foto: Bob Bronshoff

Het is iets waar hij zich als UvA-hoogleraar machine learning eigenlijk niet zo van bewust was. Maar nadat hij twee dagen per week aan de slag was gegaan als vicepresident Technologies bij Qualcomm om er de ai-strategie te helpen vormgeven, realiseerde hij zich dat daar wellicht nog een blinde vlek zat in het onderzoek. Sindsdien is het een van de gebieden waar hij aan werkt.

Het toont mooi het nut van samenwerken met de industrie, vindt Welling. Iets wat overigens volop gebeurt aan de UvA. Zowel Bosch als Qualcomm heeft er een gezamenlijk onderzoekslab, allebei met tien promovendi. Philips, Sap en Microsoft hebben er aio’s gestationeerd. En net als Welling werken verschillende onderzoekers bij Qualcomm, dat op een steenworp afstand kwam te zitten toen het in 2017 Scyfer overnam, het bedrijfje dat de Amsterdamse onderzoeksgroep als valorisatievehikel had opgericht.

Het zijn constructies die de ai-wereld kenmerken: multinationals die dicht tegen de fundamentele research aan kruipen en wetenschappers die volop tussen de twee domeinen heen en weer pendelen. Ook geven bedrijven hun ai-specialisten veel ruimte om fundamenteel onderzoek te doen en hun resultaten te publiceren. Veel van de onderzoeksresultaten komen van de Google’s, Facebooks en Baidu’s van deze wereld, net als de softwareraamwerken om ai-toepassingen te ontwikkelen.

‘Dat is wellicht wat anders dan bij veel andere onderzoeksvelden’, beaamt Welling. ‘Maar dat heeft ermee te maken dat het allerbelangrijkste in deze wereld niet de overdracht van kennis is, maar van talent. De winst van een wetenschappelijke ontdekking zit er niet zozeer in dat je een toepassing uit het lab naar het bedrijf brengt, want dat bedrijf kan ook gewoon de paper lezen. Talent is het schaarse goed, en je krijgt simpelweg niet de top van de wereld als je alles afsluit en alleen toegepast werk doet.’

Een soort personeelsadvertentie dus. ‘Ik heb ook Qualcomm AI Research opgericht, een groep waarmee we fundamenteel onderzoek doen, publiceren, naar buiten treden en opensource software maken. Dat doen we niet alleen omdat het leuk is om onderzoek te doen, maar ook om naar de buitenwereld te laten zien: dit is een gave plek om ai te doen, kom bij ons.’

Maar Welling denkt dat er ook nog een andere reden is voor de nauwe band tussen academische wereld en bedrijfsleven. ‘De technologie is een soort grens overgegaan waarbij onderzoeksresultaten eigenlijk meteen toepasbaar zijn voor bedrijven. Bij al die toepassingen zoals spraakherkenning, beeldverwerking en vertalingen levert een iets beter algoritme gelijk iets betere resultaten op. De transitie van fundamenteel werk naar praktische toepassing gaat echt ongelooflijk snel; een nieuwe publicatie kan binnen een dag al bij bedrijven op het bureau liggen.’

Max Welling 02 foto Bob Bronshoff — Foto: Bob Bronshoff

De wisselwerking tussen hardware en algoritmiek

Het mes snijdt dus aan twee kanten, meent Welling. ‘Door mijn aanstelling bij Qualcomm ben ik in aanraking gekomen met een wereld die meer kijkt naar hardware. De interactie met de algoritmiek is echt heel fascinerend. Je gaat dan echt terug naar wat het überhaupt betekent om een berekening te doen. Hoe we in ons brein rekenen, is heel anders dan in een computer. Niet met een strak algoritme, maar veel fuzzier, met allerlei associaties en een hoop ruis, waarbij je alleen een benadering van het echte antwoord krijgt.’

En toch doen die neurale netwerken – zowel de biologische als de kunstmatige – het prima met al die ruis en onzekerheid. Sterker nog: er moet een zekere mate van ruis en onvoorspelbaarheid worden toegevoegd aan de artificiële netwerken om ze optimaal te laten werken.

Dat biedt aanknopingspunten voor chips die deep learning efficiënter kunnen uitvoeren. Veel chipmakers hebben ai-accelerators die 32 bit floating point-nauwkeurigheid inruilen voor simpelere 8 bit integer-bewerkingen. ‘Maar met zo veel ruis kun je misschien ook wel naar twee bits, of zelfs naar één bit’, vertelt Welling.

Interessanter nog is om te kijken naar alternatieve ontwerpen die de klassieke Von Neumann-architectuur vervangen door iets dat meer lijkt op hoe de biologie het doet, zoals memristor-gebaseerde ontwerpen of eventgestuurde, klokloze ic’s. ‘Ik kan niet te veel zeggen over wat Qualcomm op dat gebied doet, maar in het algemeen wordt er nu veel naar memristors gekeken. Rekenkracht en geheugen zijn in het brein niet gescheiden zoals in een processor; het geheugen is verdeeld over heel veel plekjes en op elk van die plekjes kun je een soort van klein berekeningetje doen. Dat blijkt heel goed te passen bij wat een kunstmatig neuraal netwerk hoort te doen; dat zijn eigenlijk grote matrixvermenigvuldigingen. Er zijn verschillende bedrijven zoals Graphcore, Syntiant en Mythic die al memristorontwerpen hebben, en die kunnen dit soort berekeningen tegen veel lagere energiekosten doen, en veel sneller ook. Maar wel met veel minder precisie.’

Ook op het vlak van algoritmiek blijkt er nog een wereld te winnen. ‘Als onderdeel van ons werk voor Qualcomm hebben we een methode verzonnen die het netwerk langzaam maar zeker kleiner maakt tijdens het trainen. Daarbij onderzoeken we telkens of bepaalde onbelangrijke neuronen zijn weg te laten. Bij het kinderbrein zie je ook dat er eerst heel veel connecties zijn, maar dat daar later in wordt gesneden. Na dat snijproces is dat neuraal netwerk wel af, je gaat er vervolgens niet meer aan sleutelen. Maar het wordt er wel energie-efficiënter door, en ook beter.’

Er is nog een andere trend gaande: het zogeheten conditional computing. Welling: ‘Dat wil zeggen dat je bij een inference run, dus als je een voorspelling doet, eerst kijkt welke neuronen je daarvoor nodig hebt en de rest uitzet. Dan kan het ook allemaal veel sneller.’ Uiteraard ook weer mogelijk gemaakt door machine learning.

Schitterende wiskunde

Welling begon zich eigenlijk pas na zijn promotie te interesseren voor machine learning. Daarvóór werkte hij aan quantumgravitatie, iets heel anders. ‘Dat gaat over het samenvoegen van de algemene relativiteitstheorie en quantumveldentheorie. Eigenlijk weet niemand hoe dat moet. Snaartheorie is een van de mogelijkheden en ik deed dat in twee dimensies om het wat makkelijker te houden. Het is niet gelukt hoor; het probleem is eigenlijk gewoon te ingewikkeld’, lacht hij.

Na zijn promotie wilde Welling iets gaan doen met meer maatschappelijke impact en hij richtte zich op neurowetenschappen. Via computervisie evolueerde dat uiteindelijk tot machine learning. Toch blijkt er een onverwachte link met zijn promotiewerk, legt hij uit, terwijl hij een koffiekopje van zijn bureau oppakt: ‘Als je kijkt wat er diep in een neuraal netwerk gebeurt dat naar beelden van het kopje kijkt, dan zie je het in zo’n convolutielaag netjes terug als je het heen en weer beweegt. Maar als je het ronddraait, krijg je alleen maar een rare puinhoop. Terwijl jij en ik nog steeds zien dat het een kopje is.’

Max Welling 03 foto Bob Bronshoff — Foto: Bob Bronshoff

‘Wij zijn hier aan de universiteit nu heel ver met nieuwe manieren om convolutionele netwerken te formuleren waarbij je ook dit soort symmetrieën zoals rotaties in je model inbakt. Daarmee kunnen we ineens deep learning doen op objecten. Dan ga je het hebben over een driedimensionaal ding in plaats van een plaatje.’

Maar tot Wellings grote verrassing doken daar ineens weer dezelfde formules op die hij tijdens zijn promotie gebruikte. ‘Er komt dezelfde wiskunde uitrollen, en daar kun je niet omheen. Dat vind ik heel frappant. En die wiskunde is zo mooi dat het alleen al daarom wel een impact moet gaan maken. Een van de dingen die we kunnen gaan doen, is deep learning toepassen op een bol. Dan kun je bijvoorbeeld met weerpatronen op de aarde klimaatvoorspellingen gaan doen, op een datagedreven manier in plaats van met modelleren.’

Optimaliseren kun je leren

Het toont aan dat er nog volop te schaven valt aan deep learning, hoewel de basis daarvoor een decennium geleden wel werd vastgelegd. ‘Deep learning is eigenlijk een beetje een catch phrase geworden, maar het basisprincipe is dat je een hoop units hebt die informatie kunnen verwerken en die aan elkaar gekoppeld zijn via differentieerbare connecties. Dat betekent dat je een gradiënt kunt uitrekenen, dus dat je de richting kunt bepalen waarin je je parameters moet bijstellen om het netwerk te verbeteren’, verklaart Welling.

‘Ondertussen zijn er vele vormen van neurale netwerken. Je hebt lstm’s die over tijd gaan, maar je hebt ook dingen die meer lijken op een computer waarbij je iets kunt wegschrijven op een soort van geheugen en dat later weer kunt uitlezen en kunt combineren met andere informatie. Dus die architecturen generaliseren zich ook wel.’

Welling is zelf erg enthousiast over de stappen die daarmee worden gezet in het veld van reinforcement learning, dat draait om systemen die complexe acties kunnen uitvoeren. Het schoolvoorbeeld is het oplossen van doolhoven. Dat kan niet door het rechttoe rechtaan trainen van een neuraal netwerk, want daarvoor zou elke zet als goed of fout bestempeld moeten worden en dat is bij elk doolhof weer anders. Alleen op het eindresultaat, na een heleboel stappen, kan feedback worden gegeven.

‘Binnen reinforcement learning is er nu een opleving te zien, natuurlijk ook aangejaagd door de successen van Alphago. Wij passen dat hier samen met Ortec toe op logistieke processen. Denk aan een magazijn vullen op zo’n manier dat je de orders die je binnenkrijgt er ook weer zo snel mogelijk uit kunt halen, of de routes van vrachtwagens tussen supermarkten en magazijnen zo plannen dat ze minimaal hoeven te rijden en zo veel mogelijk op tijd hun spulletjes afleveren.’

‘Er is een heel vakgebied dat zich daarover ontfermt: operations research. Daar werken ze met zwaar geoptimaliseerde algoritmes. Die zijn heel goed, maar moeten wel voor elk nieuw probleem een nieuwe oplossingsmethode verzinnen. Wij kijken nu of we niet gewoon een miljoen problemen in de computer kunnen genereren, het algoritme de beste oplossingen kunnen laten verzinnen en die alsmaar kunnen blijven verbeteren. Zo leer je als het ware hoe je een nieuw probleem uit een bepaalde klasse kunt oplossen. Dat werkt nog niet zo goed als de traditionele methodes, maar het begint wel te komen.’

Max Welling 05 foto Bob Bronshoff — Foto: Bob Bronshoff

De black box op een kiertje

Het mixen van traditionele en lerende modellen is sowieso een onderwerp dat meer aandacht krijgt aan de UvA. Het kan namelijk van pas komen in de situatie dat er nog geen trainingsdata beschikbaar zijn voor het instellen van een nieuw netwerk – een autonoom wagentje dat op een nieuwe fabrieksvloer moet gaan rijden bijvoorbeeld. Door een lerend systeem te koppelen aan een traditioneel, handgemaakt model is dat probleem te omzeilen. ‘We zijn nu bezig met hybride modellen die automatisch de switch kunnen maken. Als er nog niet zo veel data zijn, gebruiken die het model gebouwd door de mens, en naarmate er meer gegevens beschikbaar komen, stappen ze langzaam over naar het geleerde model.’

De mengvorm is echter om nog een heel andere reden interessant: voor ‘explainable ai’. Van oudsher snappen we vrij goed wat onze computermodellen doen als ze een weersvoorspelling opstellen of een afwijking op een medische scan detecteren. Ze zijn immers gebaseerd op onze kennis over hoe de wereld in elkaar zit en bevatten hooguit een handvol empirische parameters ter optimalisatie.

‘Zo’n model dat je zelf opstelt, schiet eigenlijk altijd tekort in de echte wereld; die is altijd complexer dan je je kunt voorstellen. Dus bij machine learning schrijven we maar gewoon iets heel algemeens op waar we een heleboel parameters in stoppen, en dan trainen we de hele zwik. En over het algemeen zie je dat het beter werkt als je genoeg data hebt.’ Maar dat wringt bij veel mensen, want daardoor snappen we niet langer meer hoe een voorspelling tot stand komt. Er zijn soms wel miljoenen subtiele regeltjes die invloed hebben, allemaal proefondervindelijk opgesteld – dus zonder duidelijke betekenis.

Met name in Europa wordt daar argwanend naar gekeken. ‘Ik denk dat Europa de rol op zich aan het nemen is van de ethische kant van ai. Er is hier bijvoorbeeld vorig jaar een nieuwe wet ingegaan, de AVG, die voorschrijft dat je een algoritme moet kunnen uitleggen als het beslissingen over iemand neemt. Als het bijvoorbeeld oordeelt dat je geen lening krijgt, moet je duidelijk kunnen maken waarom. Als je dan zegt: ‘Hier is mijn enorme neurale netwerk, zoek het maar uit’, dan is dat niet acceptabel.’

‘Met zo’n hybride model zou het veel makkelijker worden om een soort van uitleg te maken waar zo’n beslissing op gebaseerd is. Je zou zelfs een knop kunnen maken die je naar links zet als je een interpreteerbare oplossing wilt en naar rechts als je een betere voorspelling wilt.’

Al denkt Welling ook wel dat we misschien wat te veel last hebben van koudwatervrees. ‘Als je bij de dokter komt en die geeft je de keus tussen een niet zo goed algoritme dat hij volledig snapt of een algoritme met componenten die hij ook niet meer begrijpt, maar dat het in de praktijk wel in 99 procent van de gevallen bij het juiste eind heeft, dan zou ik het wel geloven en gewoon dat complexe algoritme kiezen. Ik weet zelf ook niet hoe een vliegtuig werkt, maar ik ga er wel gewoon in zitten, want ik zie dat ze niet de hele tijd uit de lucht vallen. Ik denk dat we de voorspellingen van algoritmes ook een beetje moeten gaan vertrouwen.’