Whisk : Google dévoile son nouveau générateur d’images IA révolutionnaire
Google frappe fort dans le domaine de l’IA générative avec le lancement de Whisk, un outil qui bouleverse les codes de la génération d’images. Fini les longues descriptions textuelles : place à une approche plus intuitive où les images servent de référence pour en créer de nouvelles.
L’outil, accessible via Google Labs, permet aux utilisateurs de définir trois aspects clés : le sujet, la scène et le style, en utilisant simplement des images comme source d’inspiration. Une approche novatrice qui simplifie considérablement le processus créatif, particulièrement pour ceux qui peinent à formuler des prompts textuels précis.
La force de Whisk réside dans sa flexibilité. Pour chaque catégorie (sujet, scène, style), les utilisateurs peuvent soumettre plusieurs images de référence. Et pour les moins inspirés, un simple clic sur l’icône dé propose automatiquement des images générées par IA comme point de départ. Le système permet également d’affiner les résultats via des descriptions textuelles complémentaires, bien que cette étape reste facultative.
Les premiers tests révèlent une interface fluide et intuitive, malgré un temps de génération de quelques secondes qui peut paraître un peu long. Les images produites, bien qu’occasionnellement surprenantes, offrent une base solide pour des itérations successives. Google précise d’ailleurs que Whisk est conçu pour « l’exploration visuelle rapide » plutôt que pour des éditions ultra-précises.
« Whisk peut parfois manquer sa cible », reconnaît Google, « c’est pourquoi nous permettons aux utilisateurs de modifier les prompts sous-jacents. »
Sous le capot, Whisk s’appuie sur la toute dernière version du modèle Imagen 3, fraîchement annoncée par Google. Cette actualisation s’inscrit dans une offensive plus large de Google dans le domaine de l’IA générative, incluant également le lancement de Veo 2, une évolution majeure de son modèle de génération vidéo.
Veo 2 se distingue par sa compréhension approfondie du langage cinématographique et une réduction significative des anomalies courantes, comme la génération de doigts supplémentaires – un problème récurrent chez les concurrents comme OpenAI Sora. Cette technologie sera d’abord déployée sur VideoFX de Google Labs, avant d’être intégrée à YouTube Shorts et d’autres produits Google courant 2024.
L’arrivée de Whisk illustre l’engagement de Google à démocratiser l’IA générative tout en la rendant plus accessible et intuitive. Cette approche par « remix » visuel pourrait bien redéfinir les standards de la génération d’images par IA, offrant une alternative rafraîchissante aux prompts textuels traditionnels.
Pour les créatifs et les professionnels du visuel, Whisk représente une nouvelle façon d’explorer et d’itérer rapidement sur des concepts visuels, même si Google maintient une certaine transparence quant aux limitations actuelles de l’outil. Cette honnêteté, combinée à la facilité d’utilisation de Whisk, pourrait bien en faire un outil de référence dans l’écosystème créatif alimenté par l’IA.