Rik Marselis is testexpert bij Sogeti Nederland. Sinds drie jaar doet hij onderzoek naar de kwaliteitszorg voor kunstmatig intelligente systemen. Hij is coauteur van het boek ‘Testing in the digital age: AI makes the difference’.

24 January

Om de kwaliteit en risico’s van systemen in kaart te brengen, gebruiken we al jaren Iso 25010 en vergelijkbare standaarden. Voor ai-systemen zoals chatbots zijn deze zeker nog relevant, maar niet meer voldoende, zo ondervond Rik Marselis van Sogeti in zijn dagelijkse praktijk.

Zo’n beetje elk online opererend bedrijf heeft tegenwoordig wel een chatbot. Om veelgestelde vragen af te handelen, nieuwe klanten te werven of veelvoorkomende transacties te administreren. De chatbot is een van de verschijningsvormen van de grote schare aan intelligente machines die ons leven momenteel binnenstormen. Andere voorbeelden zijn stofzuigrobots, nummerbordherkenningscamera’s en zelfrijdende auto’s.

Een grote verzekeraar besloot een chatbot te implementeren toen na een fikse storm het aantal schademeldingen de pan uit rees en het callcenter het niet meer aankon. De meeste meldingen zijn zo duidelijk dat ze automatisch te administreren en af te handelen zijn. Dat levert zowel voor de maatschappij als voor de klanten grote voordelen op.

Als de kwaliteit van een chatbot ondermaats is, kan een organisatie daar ook enorm veel last van hebben. Denk aan de chatbot van Microsoft die extreemrechtse taal begon uit te kramen. Hij reproduceerde gewoon wat hij had geleerd van zijn input, zoals zelflerende algoritmes dat behoren te doen, maar de reputatie van Microsoft liep er wel een deuk door op.

Er zijn een heleboel kenmerken die van belang zijn voor de kwaliteit van informatiesystemen in het algemeen. De bekende Iso 25010-standaard definieert acht hoofdgroepen, die we kennen als de functionele en niet-functionele kwaliteitsattributen. Ontwikkelaars gebruiken deze attributen niet alleen vooraf, om de eisen te definiëren waaraan het systeem moet voldoen, maar ook achteraf, om te verifiëren en te valideren of dat daadwerkelijk het geval is.

Bij ai-systemen zoals chatbots zijn de acht hoofdgroepen van Iso 25010 onverkort nuttig en nodig. In onze praktijk hebben we echter gemerkt dat we het daar niet mee redden; ai-systemen hebben extra eigenschappen die we niet tegenkomen bij normale informatiesystemen. Daarom hebben we drie nieuwe hoofdgroepen geïntroduceerd van kenmerken om de kwaliteit op te controleren: intelligent gedrag, moraliteit en persoonlijkheid, elk met meerdere subattributen, en we hebben embodiment toegevoegd als subkenmerk van gebruikersvriendelijkheid.

De kwaliteitsattributen uit Iso 25010 uitgebreid met drie nieuwe hoofdgroepen: intelligent gedrag, moraliteit en persoonlijkheid, en embodiment als subkenmerk van gebruikersvriendelijkheid

Goedgezind

Over het intelligente gedrag van ai-systemen maken velen zich zorgen. De grote angst is dat ze slimmer worden dan mensen en de wereld over zullen nemen. Dit soort ‘superintelligentie’ is voorlopig nog totaal onmogelijk en als ontwikkelaars er weloverwogen mee omgaan, zullen die toekomstige superintelligente ai-systemen ons goedgezind zijn.

Op dit moment vertonen ai-systemen nog beperkt intelligent gedrag: ze zijn heel goed in één specifieke taak, bijvoorbeeld objecten herkennen op foto’s of zelfstandig door het verkeer bewegen. Hierbij is het maar de vraag hoe intelligent de systemen echt zijn. Begrijpt een zelfrijdende auto wat voor actie we van hem verwachten als er op een verkeersbord ‘Denk aan onze kinderen’ staat?

En dat iets technisch kan, wil niet zeggen dat we het ook moeten willen. Ai-systemen kunnen al taken uitvoeren die voorheen waren voorbehouden aan mensen, zoals medische gegevens beoordelen en daar een diagnose bij stellen of zorgbehoevenden ondersteunen – denk aan een sprekende assistent die ouderen herinnert om hun pillen in te nemen. Dergelijke taken kunnen we echter niet overlaten aan intelligente systemen zonder eerst allerlei lastige ethische vragen te beantwoorden. Daarbij is ook de privacy in het geding. Intelligente apparaten registreren alles met camera’s en microfoons en hangen permanent aan internet. Bovendien moeten we er goed over nadenken hoe we willen dat ai-systemen zich naar mensen toe gedragen – denk aan killerrobots die zelfstandig beslissen wie een vijand is.

Bij de ontwikkeling van ai-systemen verdient de persoonlijkheid bijzondere aandacht, waarbij we goed moeten kijken naar de situatie. De chatbot van Kayak om vliegreizen te zoeken, stelt korte vragen en komt bij juiste beantwoording snel met relevante opties. De Bluebot van KLM heeft veel meer tekst: hij verwelkomt je vriendelijk en geeft hints en tips voor de beantwoording van zijn vragen, om daarna evengoed relevante reisopties te geven. Het resultaat is hetzelfde, maar het gecreëerde gevoel is totaal verschillend. De ene is niet beter of slechter dan de andere; de doelgroep is gewoon anders. Kayak past perfect bij een veelgebruiker op een reisbureau, terwijl Bluebot veel geschikter is voor de incidentele reiziger die niet thuis is in de branche. Als de persoonlijkheid van een ai-systeem goed aansluit, gaan we graag de interactie aan.

Een interessant aspect van de persoonlijkheid is humor. Humor kan de conversatie tussen een mens en een digitale assistent verlevendigen, maar dan moet de ai wel kunnen herkennen wanneer de gesprekspartner daarvoor in de stemming is. Wie een stormschade meldt, zit waarschijnlijk niet te wachten op een grapje.

Daarnaast is de embodiment van belang: hoe het ai-systeem eruitziet. Het uiterlijk van digitale assistenten moet mensen niet afschrikken, want dan heeft niemand er wat aan.

Niet perfect

Voor ontwikkelaars is het zaak om vroegtijdig na te denken over de kwaliteitskenmerken die ze verwachten van hun ai-systeem. Als we ons eigen systeem bouwen, zullen we gedetailleerd willen weten hoe goed het leert en beslissingen neemt en of die beslissingen transparant zijn. We kunnen ook ‘van de plank’ kopen. Als het goed is, heeft de leverancier de techniek dan al getest, maar we moeten nog steeds wel zelf vaststellen of het bedrijfsproces inderdaad voldoet aan de eisen. Een bank die besluit een robot achter de balie te zetten, wil zeker weten dat die de klanten het juiste advies geeft en de transacties goed afhandelt.

Als de kwaliteit van ai-systemen niet voldoende is, brengt dat grote persoonlijke en maatschappelijke risico’s met zich mee. Met de bestaande en nieuwe kwaliteitsattributen zijn die risico’s gelukkig goed te mitigeren. We streven zeker niet naar perfectie. Maar waarom zouden we ook, met systemen die zich uiteindelijk zelf gestaag verder kunnen ontwikkelen?

Edited by Nieke Roos