Au cours des derniers mois, le monde de l’art généré par des AI a connu un boom après que des hackers ont modifié un modèle de la société OpenAI pour créer des outils de génération d’images absolument incroyables.
Tout ce que vous avez à faire pour guider ces systèmes, c’est de leur indiquer l’image que vous voulez. Vous pouvez par exemple indiquer à l’un de ces générateurs d’images les mots suivants : « Un monde fantastique ». En s’appuyant sur cette consigne, l’auteur de cet article a généré l’image que vous voyez en début.
Videos by VICE
La qualité nette et cohérente, et la haute résolution des images créées par ces outils les distinguent clairement des outils de création artistique gérés par une AI qui existaient jusque-là. Les outils sont très répétitifs. Sur la vidéo ci-dessous, vous pouvez voir la génération d’une image basée sur les mots « un homme torturé à mort par un démon ».
Le moteur principal de ces nouveaux outils est une AI dernier cri de classification d’images qui s’appelle CLIP. Le CLIP a été annoncé en janvier par la société OpenAI, connue pour avoir inventé le GPT-3, qui, lui, n’avait été annoncé qu’en mai 2020. Le GPT-3 peut générer un texte de nature tout à fait générale, qui semble avoir été écrit par un être humain, sur la base d’une consigne simple.
Les systèmes basés sur le nouvel outil CLIP rappellent le GPT-3 par leur capacité à recevoir des consignes simples, mais le fonctionnement interne de ces nouveaux outils est bien différent. Le CLIP a été conçu pour être un outil à portée restreinte, mais extrêmement puissant. C’est un classificateur d’images à des fins générales qui est capable de déterminer dans quelle mesure une image correspond à une consigne, par exemple, en associant l’image d’une pomme avec le mot « pomme ». Mais c’est tout. Charlie Snell, étudiant en informatique à l’université de Californie à Berkeley, qui a suivi l’émergence de cette nouvelle scène, expliquait dans un entretien qu’« utiliser cet outil pour générer des œuvres d’art n’avait rien d’une évidence ».
Mais très rapidement après la sortie de cet outil, des hackers comme Ryan Murdock, artiste et ingénieur en machine learning, ont réussi à connecter d’autres AI au CLIP afin de mettre au point un générateur d’images. « J’ai passé du temps à bidouiller la bête et, au bout de quelques jours, j’ai découvert que je pouvais générer des images », expliquait Murdock lors d’un entretien.
Pendant les semaines et les mois qui ont suivi, des hackers ont essayé de connecter le CLIP à des AI de plus en plus performantes. Le 4 mars, Murdock a réussi à connecter le CLIP au VQ-GAN, une AI d’un autre genre, mais tout aussi moderne et performante, qui avait été présentée en décembre 2020. « Il m’a fallu pas mal de temps pour parvenir à bien faire tourner le système », explique Murdock. Il a continué à peaufiner le système jusqu’à ce que celui-ci puisse produire des images nettes. Pour l’instant, les combinaisons de CLIP et de VQ-GAN sont les versions les plus utilisées de ces nouveaux outils.
Ces outils sont devenus très populaires dernièrement, donnant naissance à toute une scène artistique d’œuvres générées par ordinateur.
« Ce sont les premiers systèmes de bonne qualité qui sont accessibles au public, explique Snell. Ce sont les premiers systèmes qui parviennent vraiment à transformer du texte en images. »
D’après Snell, ces systèmes constituent peut-être la plus grande innovation dans l’art généré par des AI depuis DeepDream, une AI sortie en 2015 et qui a beaucoup été utilisée pour créer des interprétations psychédéliques d’images connues. « C’est vraiment ce que j’ai vu de mieux », dit Snell.
Jusqu’ici, les plus puissants outils de génération d’images destinés au marché public étaient des réseaux neuronaux que l’on appelle des réseaux antagonistes génératifs ou GAN (pour generative adversarial network en anglais). Le VQ-GAN est justement l’un de ces outils. Il fallait entraîner ces réseaux sur un très grand nombre d’images pour qu’ils soient ensuite en mesure de synthétiser de nouvelles images de types similaires à celles qu’ils avaient vues précédemment. Mais les GAN ne sont pas capables de générer des images en s’appuyant sur des consignes. D’autres types de réseaux, différents des GAN, peuvent le faire, mais les images obtenues ne sont pas tout à fait satisfaisantes. « Les résultats n’étaient vraiment pas terribles, dit Snell. Là, c’est une nouvelle approche en quelque sorte. »
Les nouveaux outils sont déjà disponibles et quiconque en a envie peut s’essayer à la génération d’images. Le 27 juin, le compte Twitter @images_ai a tweeté un tutoriel, mis au point par l’informaticienne Katherine Crowson, qui a été très apprécié par la communauté, et qui explique comment utiliser l’un de ces nouveaux systèmes de génération d’images. En suivant les instructions, un utilisateur un peu dégourdi saura faire tourner le système en quelques minutes à partir d’un carnet de programmation en ligne.
« Les résultats sont si surprenants que, dans beaucoup de cas, cela paraît incroyable », confie Crowson. Et de poursuivre : « Le CLIP a été entraîné avec 400 millions de couples image/texte. À de tels niveaux, on commence à voir apparaître chez ces AI des capacités que l’on ne voyait jusqu’ici que chez des êtres humains doués pour l’art. On retrouve notamment des exemples d’abstractions et des analogies. »
Il existe déjà un grand nombre d’œuvres sensationnelles. Nous avons par exemple des couchers de soleil abstraits, des maisons de campagne idylliques ainsi que des villes géantes. On peut également voir des armes représentées avec une animosité perturbante, et des structures ressemblant à celles d’Escher, qui se replient sur elles-mêmes.
Les gens sont fascinés par les capacités de ces outils, et beaucoup d’artistes commencent à les prendre en main. « Il y a pas mal de bruit autour de ces nouveaux outils sur les fils Twitter qui parlent de machine learning et d’art », explique Murdock.
Les utilisateurs ont peu à peu développé un talent artistique spécifique à cet outil. L’une des bizarreries de ces systèmes, c’est que vous devez essayer d’apprendre à optimiser vos consignes pour générer une image qui corresponde le plus possible à vos intentions. Sur son fil Twitter, Snell a ainsi été le témoin d’une évolution de la manière dont certains artistes formulent leurs consignes pour la machine.
« Ils essaient constamment d’apporter des petites modifications pour améliorer les résultats, explique-t-il. Et ils y arrivent. J’ai l’impression de voir des progrès chaque semaine. »
Les nouveaux outils ont tout de même quelques limitations, notamment la taille des images générées. D’autre part, ces images peuvent parfois être surprenantes, inattendues ou étranges. Mais le fait que ces outils aient pu être conçus est déjà quelque chose de très surprenant.
Le jour de l’annonce du CLIP, OpenAI évoquait également publiquement la création d’une puissante AI du nom de DALL·E, expressément conçue pour la génération d’images. La société a ensuite publié quelques-uns des résultats obtenus par cette nouvelle AI, qui rappelaient ceux d’un véritable générateur d’images du type GPT-3, un outil capable de créer des images convaincantes de tout et n’importe quoi. Toutefois, le DALL·E n’a pas été mis sur le marché, à disposition du public, ni son code ni l’AI de production, dont l’entraînement a sans doute été extrêmement coûteux. En revanche, OpenAI a publié le modèle complet du CLIP. « Le matériel nécessaire pour produire ces réseaux neuronaux est relativement peu coûteux », explique Crowson.
Les nouveaux outils ont montré que le CLIP offre une espèce de méthode alternative pour reproduire les capacités du DALL·E. Étant donné que l’entreprise OpenAI n’a pas souhaité dévoiler complètement le DALL·E, on peut imaginer qu’elle a été prise au dépourvu. « Je pense vraiment qu’ils sont un peu surpris que leur outil soit capable de faire tout ça », dit Murdock.
Snell décrivait la situation comme suit : « Ils ont voulu nous mettre l’eau à la bouche avec le DALL·E. Du genre : ‘On a ce truc sous la main.’ Mais ils n’ont pas voulu le sortir. Et tout le monde s’est dit : ‘On le veut quand même !’ Alors, d’une certaine façon, les gens l’ont fait par eux-mêmes. »
Les outils bricolés avec le CLIP fonctionnent de manière très différente du DALL·E. Le DALL·E produit directement des images qui correspondent à du texte. Quant à ces systèmes fondés sur le CLIP, Snell les décrit comme plus proches d’outils d’interprétation de l’AI. Quand VQ-GAN et le CLIP fonctionnent ensemble, le premier modèle construit une image et le second évalue à quel point elle correspond à la consigne. Les deux modèles répètent l’opération jusqu’à ce que l’image corresponde le plus fidèlement possible au texte. L’itération dit quelque chose sur l’imagerie que le CLIP associe à certains mots.
Les modèles qui fonctionnent avec le CLIP constituent donc des outils artistiques d’un type nouveau, comme un pinceau d’un genre nouveau. Mais d’après Snell, ils ne sont pas encore parfaits. « On a un certain contrôle sur eux, mais on ne peut pas totalement les contrôler. Et on est toujours un peu surpris par le résultat. » Mais cette ingéniosité, proche de celle de l’être humain, est l’un des aspects particulièrement attractifs de ces nouveaux outils.
Reste à voir quelles répercussions ils auront. Pour l’instant, tout porte à croire que les entreprises et les collaborations parviendront assez facilement à améliorer ces outils. Notamment parce que les outils actuels ont majoritairement été mis au point par des particuliers. Mais ils sont déjà très puissants. De nombreuses personnes paraissent ouvertes et intéressées à l’idée de prendre en main ces outils à des fins artistiques, professionnelles ou pour s’amuser. Aujourd’hui, créer de l’art est devenu aussi simple que d’utiliser le langage. Et désormais, chacun peut devenir son propre Picasso verbal.
VICE France est sur Twitter, Instagram, Facebook et sur Flipboard.
VICE Belgique est sur Instagram et Facebook.