Vision en beeldverwerking, daar heb ik wel wat mee. Jaren geleden heb ik nog geprobeerd met een visiesysteem naar augurken en champignons te kijken om te zien of er iets mis was en welke er al konden worden uitgesorteerd. De natuurlijke producten waar je mee te maken hebt en de fuzzy criteria maken deze taak bar ingewikkeld voor beeldverwerkingssystemen. De meeste van die systemen hebben camera‘s die een lijn of een rechthoek van pixels opnemen, in grijswaardes of kleur. Stel je eens voor om in een zwerm grijswaardepixels een banaan te herkennen. Dat is een verrekte moeilijke gevolgtrekking, puntjeswolk => banaan.
Bij goed gedefinieerde omstandigheden en een fatsoenlijke verlichting kan inmiddels een heleboel. En hoe gestructureerder hoe makkelijker natuurlijk. Printletters herkennen of een vlekje zien, is tegenwoordig goed te doen. Gezichten herkennen op basis van geometrie en kengetallen gaat ook best aardig. Mijn Macje kan in Iphoto bijvoorbeeld al gezichten met elkaar vergelijken. Na enige training en een vooranalyse van vele minuten haalt de programmatuur een redelijke score in mijn 1720 plaatjes tellende fotobibliotheek. Met gezichten onder een hoek of met zonnebrillen bakt Iphoto er echter weinig van. En soms gaat het helemaal mis. Een camelkleurige jaszak wordt dan als gezicht geclassificeerd. Als mens kun je daar wel om lachen, technisch is het gewoon superfout.
Maar ook geavanceerde systemen redden het vaak niet, bijvoorbeeld als er meer context nodig is voor de herkenning. Om nog maar te zwijgen over de herkenning van 3D objecten. Een plat erotisch plaatje onderscheiden van een Rubens met voluptueuze dames vergt zelfs een zekere culturele achtergrond. Alleen maar kijken naar een drempelwaarde voor ’vleeskleurige‘ content in het beeld is onvoldoende. Je moet dan al een soort interpretatie uitvoeren van het beeldmateriaal. Daarentegen verwerken mensachtigen complexe beoordelingssituaties in zeer korte tijd, soms al in één oogopslag. Dan krijg je toch echt respect voor de natuur en blijkt zelfs de meest innovatieve techniek hopeloos inflexibel.
Datareductie is het toverwoord om er in een technisch systeem nog iets van te maken. Kijk eens naar de nieuwe HD-camera A-Cam DLL van Ikonoskop. Hoewel bedoeld voor filmers, duizelt het als je de getallen hoort. Full HD met vijfentwintig beelden per seconde van 1920 bij 1080 pixels elk. Zonder comprimeren levert deze camera een datastroom van ongeveer 240 Mbyte per seconde. De bijgeleverde speciale 80 Gbyte datacartridge is dan na twaalf minuten vol en al is je vaste schijf nog zo groot, ook die is binnen no time tot de laatste bit gevuld. Ga daar maar eens aan rekenen. Doe maar eens een bewegingsanalyse op verschillende in het beeld te herkennen objecten, opgenomen onder veranderende verlichtingsomstandigheden. Dan kun je zelfs met een quadcore GHz-processormonster weinig beginnen. Voor een mens is zo‘n klusje geen probleem, daar denken we niet eens bij na. Voor de huidige stand van de techniek is het echt nog heel complex.
Ik denk dat we bij zulke taakstellingen eens goed moeten bekijken hoe biologische systemen analyse, datareductie en 3D-reconstructie uitvoeren op binnenkomende beelden. Technische systemen op basis van bio-informaticaprincipes kunnen mogelijk wel binnen één oogopslag beslissen of een plaatje platvloers of cultureel verheffend is. Om er via Intelli-Google nog wat achtergrondinfo over Rubens bij op te diepen, lijkt me dan geen probleem. Voorlopig is dat nog toekomstmuziek. En omdat zien een essentiële functie is voor intelligente systemen, betekent dat dat R2D2 nog even op zich laat wachten. Helaas.