Tech

Eye robot: de Turing-test voor beeldherkenningssoftware

​Er zijn een paar dingen die een mens beter kan dan een computer: we zijn bijvoorbeeld beter in waterdicht zijn, en in het herkennen wat er op een willekeurig plaatje aan de hand is. Maar om de menselijke irrelevantie te bespoedigen hebben onderzoekers van Brown University een paper gepubliceerd in Proceedings of the National Academy of Sciences. Hierin presenteren ze een soort Turing-test voor computer-vision, een model dat wetenschappers helpt om in te schatten hoe goed een computer is in het begrijpen van een bepaald beeld.

Een geweldig stuk in Wired van januari omschrijft hoe computers tegenwoordig plaatjes van honden met hoedjes kunnen identificeren, maar dat ze daarentegen ook nog steeds een wesp met zwart met gele strepen voor een schoolbus kunnen aanzien. 

Videos by VICE

Beeld: PNAS

Een interessant punt uit het artikel is dat wetenschappers vaak zelf niet precies doorhebben wat er in hun eigen computermodellen gaande is, een gevolg van het feit dat de modellen steeds gecompliceerder worden. Daar komt bij dat de modellen steeds meer in staat zijn om zelfstandig te leren.

“Er zijn miljoenen neuronen die allemaal hun eigen ding doen, en we begrijpen nog niet helemaal hoe ze complexe dingen als zicht voor elkaar krijgen,” ze Jeff Clune, hoofd van Evolving Artificial Intelligence Laboratory aan de University of Wyoming, tegen Wired.

Om vooruitgang in het veld beter te kunnen begrijpen, ontwikkelden de onderzoekers van Brown and Johns Hopkins University een “visuele Turing test.” Bij de test wordt er een score opgesteld aan de hand van hoe goed de beeldherkenningssoftware bepaalde plaatjes kan herkennen. De ja- en nee vragen richten zich niet alleen op wat er op het plaatje staat, maar ook op hoe de verschillende mensen en objecten met elkaar interacteren.

De vragen richten zich dus niet op de vraag op de computer iemand ziet: de test werkt de computer door een aantal vragen heen, vergelijkbaar met een spelletje ‘wie is het?’.

“De tests die we op het moment voor visueel leren hebben, zijn te makkelijk,” vertelde Donald German, een van de co-auteurs.

“Veel testen zijn gebaseerd op welke programma’s het beste een vierkant om een auto, fiets of persoon kunnen plaatsen.” Dat is allemaal leuk en aardig als dat je doel is, maar als we echt in de richting van iets kunstmatig-intelligents willen gaan, dan moeten de programma’s in staat zijn om, net als mensen dat doen, te beschrijven wat ze zien.

Beeld: PNAS

“Als mensen foto’s ontleden dan doen ze dat op een rijke- en diepe manier, mensen hebben associaties, relaties en verhalen bij beeld,” zei German. “Mensen zeggen dat een beeld meer dan duizend woorden kan overbrengen, maar beeld gaat niet alleen over labels en woorden, er zit een diepere semantische laag in.”

Elke vraag in de test behoort tot één van de volgende categorieën: bestaansvragen (is het er?); uniciteitsvragen (is er nog iets anders?) en vragen met betrekking tot relaties en attributen.

“Het doel van de bestaans- en uniciteitsvragen is om objecten te onderscheiden. De entiteiten worden dan gelabeld (persoon 1, voertuig 3), en hier worden vervolgens toewijzings- en relatie-vragen over gesteld, zoals “blokkeert persoon 1 deels het zicht op voertuig 3?”, aldus het verslag. 

“De vragen zijn adaptief,” zei German. “De volgende vraag is niet alleen gebaseerd op antwoorden, maar ook op de vragen die daaraan vooraf gingen.” Als het idee dat computers elkaar ondervragen bedreigend op je overkomt, dan kan het volgende je misschien een beetje gerust stellen: er is ruimte voor mensen in de visuele Turing-test.

“Het systeem heeft mensen nodig om de juiste antwoorden te geven,” zei German. “Het systeem is op een bepaald moment niet meer zelf in staat om de goede antwoorden te genereren, en dan zijn er mensen nodig.”

Mensen blijven voorlopig dus de standaard voor hoe een computer-vision-systeem beoordeeld wordt, maar de visuele Turing-test is een cruciale stap om computers beter in staat te maken om zelfstandig dingen te kunnen gaan waarnemen.