Tenir mon Shiba Inu – TechCrunch

Tenir mon Shiba Inu – TechCrunch

Le monde de l’IA cherche toujours à gérer l’incroyable prouesse qu’est la capacité de DALL-E 2 à dessiner/peindre/imaginer à peu près n’importe quoi… mais OpenAI n’est pas le seul à travailler sur quelque chose comme ça. Google Research s’est empressé de publier un modèle similaire sur lequel il travaille, qui, selon lui, est encore meilleur.

Imagen (comprenez-le ?) est un générateur basé sur la diffusion de texte en image construit sur de grands modèles de langage de transformateur qui… d’accord, ralentissons et décompressons très rapidement.

Les modèles de texte à image prennent des entrées de texte comme “un chien sur un vélo” et produisent une image correspondante, quelque chose qui a été fait pendant des années mais qui a récemment vu d’énormes sauts en termes de qualité et d’accessibilité.

Une partie de cela utilise des techniques de diffusion, qui commencent essentiellement par une image de bruit pur et l’affinent lentement petit à petit jusqu’à ce que le modèle pense qu’il ne peut pas le faire ressembler plus à un chien sur un vélo qu’il ne le fait déjà. Il s’agissait d’une amélioration par rapport aux générateurs de haut en bas qui pouvaient se tromper de manière hilarante au premier abord, et d’autres qui pouvaient facilement être induits en erreur.

L’autre partie est l’amélioration de la compréhension du langage grâce à de grands modèles de langage utilisant l’approche du transformateur, dont je n’aborderai pas (et ne peux pas) aborder ici, mais cela et quelques autres avancées récentes ont conduit à des modèles de langage convaincants comme GPT-3 et autres.

Crédits image : Recherche Google

Imagen commence par générer une petite image (64 × 64 pixels) puis effectue deux passages en “super résolution” dessus pour l’amener à 1024 × 1024. Ce n’est pas comme la mise à l’échelle normale, car la super-résolution AI crée de nouveaux détails en harmonie avec l’image plus petite, en utilisant l’original comme base.

Supposons, par exemple, que vous ayez un chien à vélo et que l’œil du chien mesure 3 pixels de diamètre dans la première image. Pas beaucoup de place pour l’expression ! Mais sur la deuxième image, c’est 12 pixels de large. D’où viennent les détails nécessaires pour cela? Eh bien, l’IA sait à quoi ressemble l’œil d’un chien, elle génère donc plus de détails au fur et à mesure qu’elle dessine. Ensuite, cela se reproduit lorsque l’œil est refait, mais à 48 pixels de diamètre. Mais à aucun moment l’IA n’a dû retirer 48 pixels d’œil de chien de son… disons sac magique. Comme beaucoup d’artistes, cela a commencé par l’équivalent d’un croquis grossier, l’a complété dans une étude, puis est vraiment allé en ville sur la toile finale.

Ce n’est pas sans précédent, et en fait, les artistes travaillant avec des modèles d’IA utilisent déjà cette technique pour créer des pièces beaucoup plus grandes que ce que l’IA peut gérer en une seule fois. Si vous divisez une toile en plusieurs morceaux et que vous les super-résolvez tous séparément, vous vous retrouvez avec quelque chose de beaucoup plus grand et de plus détaillé ; vous pouvez même le faire à plusieurs reprises. Un exemple intéressant d’un artiste que je connais :

Les avancées que les chercheurs de Google revendiquent avec Imagen sont multiples. Ils disent que les modèles de texte existants peuvent être utilisés pour la partie d’encodage du texte et que leur qualité est plus importante que la simple augmentation de la fidélité visuelle. Cela a du sens intuitivement, car une image détaillée d’un non-sens est certainement pire qu’une image légèrement moins détaillée de ce que vous avez demandé exactement.

Par exemple, dans l’article décrivant Imagen, ils comparent les résultats pour celui-ci et DALL-E 2 faisant “un panda faisant du latte art”. Dans toutes les images de ce dernier, c’est du latte art d’un panda ; dans la plupart des images, c’est un panda qui fait l’art. (Aucun n’a été capable de faire d’un cheval un astronaute, montrant le contraire dans toutes les tentatives. C’est un travail en cours.)

Images générées par ordinateur de pandas faisant ou faisant du latte art.

Crédits image : Recherche Google

Dans les tests de Google, Imagen est arrivé en tête des tests d’évaluation humaine, à la fois sur la précision et la fidélité. C’est évidemment assez subjectif, mais égaler la qualité perçue de DALL-E 2, qui jusqu’à aujourd’hui était considérée comme un énorme bond en avant par rapport à tout le reste, est assez impressionnant. J’ajouterai seulement que même si c’est plutôt bon, aucune de ces images (de n’importe quel générateur) ne résistera à plus qu’un examen superficiel avant que les gens ne remarquent qu’elles sont générées ou n’aient de sérieux soupçons.

OpenAI a cependant une ou deux longueurs d’avance sur Google à plusieurs égards. DALL-E 2 est plus qu’un document de recherche, c’est une version bêta privée avec des personnes qui l’utilisent, tout comme ils ont utilisé son prédécesseur et GPT-2 et 3. Ironiquement, la société avec “open” dans son nom s’est concentrée sur la production de son texte -à la recherche d’images, alors que le géant de l’internet fabuleusement rentable ne s’y est pas encore essayé.

Cela ressort plus que clairement du choix fait par les chercheurs de DALL-E 2, de conserver l’ensemble de données de formation à l’avance et de supprimer tout contenu qui pourrait enfreindre leurs propres directives. Le modèle ne pourrait pas faire quelque chose de NSFW s’il essayait. L’équipe de Google, cependant, a utilisé de grands ensembles de données connus pour inclure du matériel inapproprié. Dans une section perspicace du site Imagen décrivant « Limitations et impact sociétal », les chercheurs écrivent :

Les applications en aval des modèles texte-image sont variées et peuvent avoir un impact complexe sur la société. Les risques potentiels d’utilisation abusive soulèvent des inquiétudes concernant l’open source responsable du code et des démos. Pour le moment, nous avons décidé de ne pas publier de code ou de démo publique.

Les exigences en matière de données des modèles texte-image ont conduit les chercheurs à s’appuyer fortement sur de grands ensembles de données, pour la plupart non conservés et récupérés sur le Web. Bien que cette approche ait permis des avancées algorithmiques rapides ces dernières années, les ensembles de données de cette nature reflètent souvent des stéréotypes sociaux, des points de vue oppressifs et des associations désobligeantes ou autrement nuisibles à des groupes identitaires marginalisés. Alors qu’un sous-ensemble de nos données de formation a été filtré pour supprimer le bruit et le contenu indésirable, comme les images pornographiques et le langage toxique, nous avons également utilisé l’ensemble de données LAION-400M qui est connu pour contenir un large éventail de contenus inappropriés, notamment des images pornographiques, des insultes racistes et stéréotypes sociaux néfastes. Imagen s’appuie sur des encodeurs de texte entraînés sur des données non curées à l’échelle du Web, et hérite ainsi des préjugés sociaux et des limites des grands modèles de langage. En tant que tel, il existe un risque qu’Imagen ait encodé des stéréotypes et des représentations nuisibles, ce qui guide notre décision de ne pas publier Imagen pour un usage public sans autres garanties en place.

Alors que certains pourraient critiquer cela, en disant que Google a peur que son IA ne soit pas suffisamment politiquement correcte, c’est une vision peu charitable et à courte vue. Un modèle d’IA n’est aussi bon que les données sur lesquelles il est formé, et toutes les équipes ne peuvent pas consacrer le temps et les efforts nécessaires pour supprimer les choses vraiment horribles que ces grattoirs récupèrent lorsqu’ils assemblent plusieurs millions d’images ou plusieurs milliards. ensembles de données de mots.

Ces biais sont censés apparaître au cours du processus de recherche, qui expose le fonctionnement des systèmes et fournit un terrain d’essai sans entrave pour identifier ces limitations et d’autres. Sinon, comment saurions-nous qu’une IA ne peut pas dessiner des coiffures courantes chez les Noirs – des coiffures que n’importe quel enfant pourrait dessiner ? Ou que lorsqu’elle est invitée à écrire des histoires sur les environnements de travail, l’IA fait invariablement du patron un homme ? Dans ces cas, un modèle d’IA fonctionne parfaitement et tel que conçu – il a appris avec succès les biais qui imprègnent les médias sur lesquels il est formé. Pas contrairement aux gens!

Mais alors que désapprendre les préjugés systémiques est un projet de toute une vie pour de nombreux humains, une IA a plus de facilité et ses créateurs peuvent supprimer le contenu qui l’a fait mal se comporter en premier lieu. Peut-être qu’un jour il sera nécessaire qu’une IA écrive dans le style d’un expert raciste et sexiste des années 50, mais pour l’instant, les avantages d’inclure ces données sont faibles et les risques importants.

Quoi qu’il en soit, Imagen, comme les autres, est encore clairement en phase d’expérimentation, pas prêt à être employé autrement que sous la stricte surveillance humaine. Lorsque Google arrivera à rendre ses capacités plus accessibles, je suis sûr que nous en apprendrons plus sur comment et pourquoi cela fonctionne.

Leave a Comment

Your email address will not be published.