Actualité de l'intelligence artificielle générative - février 2025

Actualité de l’IA

Août en bref 🚀

Pas de vacances pour l’intelligence artificielle…
En août,
OpenAI, Google et consorts ont redoublé d’annonces.

En vedette le lancement très commenté (et controversé) de GPT‑5, l’annonce par Google des prouesses du modèle Genie 3, capable de générer à partir de promps des univers immersifs et interactif, ou encore l’arrivée de navigateurs IA comme Comet d’Anthropic.

Un avant-goût des bouleversements majeurs qui vont s’installer dans les mois à venir.

💡Cap Code

C’est l’un des récents terrains de jeu des éditeurs de solutions d’IA : les assistants pour le code et le développement logiciel ou applicatif. Et tout le monde s’y met, sous différentes formes :

  • Microsoft a présenté GitHub Spark, un environnement de développement en ligne permettant de créer des applications à partir d’instructions en langage naturel. Le but est de transformer la simple aide au code en un véritable espace collaboratif où l’IA accompagne la conception et le déploiement d’un projet de bout en bout.
  • Google a lancé Gemini CLI, un agent IA gratuit et open source qui s’exécute directement dans le terminal et donne accès aux modèles Gemini 2.5 Pro pour générer du code, expliquer ou automatiser des tâches.
  •  Jules, l’agent de codage asynchrone de Google, capable d’exécuter des tâches de développement (tests, corrections, nouvelles fonctionnalités…) dans une machine virtuelle cloud est enfin disponible.
  • Figma, enfin, a mis un terme à la bêta de Make, son assistant de code lancé au printemps, et le propose désormais gratuitement (avec quelques restrictions) à ses utilisateurs. L’outil permet de créer des prototypes et des applications à partir de descriptions textuelles.

⏳ Dans l’actualité IA bientôt…

GPT-6 en vue…

Et d’après son papa (Sam Altman) il disposera d’une mémoire beaucoup plus étendue de nos interactions et des personnalités configurables.

On attends également Sora 2, une version améliorée du générateur de vidéos d’Open AI qui intégrera à son tour la génération de sons et d’ambiances audio synchronisées avec les vidéos… comme le très réputé Veo3 de Google.

 

🤖 Côté bots conversationnels

OpenAI

GPT‑5 a enfin vu le jour ! Plus rapide, plus contextuel, il adopte un ton plus neutre — au point que certains regrettent la « personnalité » de GPT‑4.1, toujours disponible sur la plateforme. En parallèle, ChatGPT se dote d’un mode « Étudier et apprendre » (activable en France via le menu + quand on démarre un nouveau chat), pensé pour les étudiants et formateurs : quiz interactifs, plans d’étude personnalisés, explications progressives… l’outil s’impose peu à peu comme un compagnon d’apprentissage.

 👉 GPT-5 et la nouvelle ère du travail (Open AI)


Google

Gemini 2.5 Pro poursuit son déploiement, bientôt rejoint par 2.5 Flash, plus léger et réactif. Google y ajoute une mémoire personnelle de contexte et un mode éphémère, pour des échanges plus fluides ou confidentiels selon vos besoins.

Dans l’univers créatif, NotebookLM innove avec les « Video Overviews » : des résumés vidéo générés à partir de vos documents, mêlant images, graphiques et citations. Pour l’instant, uniquement en anglais, mais la promesse est forte pour les communicants.

👉 Gemini 2.5 : nos modèles les plus intelligents deviennent encore meilleurs


Perplexity

Le moteur de recherche conversationnel Perplexity lance son navigateur intégré : une fenêtre latérale pour analyser, résumer ou commenter les pages web, à la voix ou au clavier. Encore réservé aux abonnés Max, il s’impose déjà comme un outil de veille express pour les communicants et journalistes.

👉 Télécharger le navigateur Comet


Anthropic

Claude 4.1 Opus s’enrichit d’une fonction de recherche dans les conversations, idéale pour retrouver une information ou relancer un projet. L’extension Claude for Chrome permet désormais de travailler directement depuis le navigateur, pratique pour les synthèses ou reformulations de textes sans changer d’onglet.

👉 Télécharger Claude for Chrome


Mistral

Cocorico 🇫🇷 ! Le modèle Voxtral de Mistral AI arrive sur Hugging Face (agrégateur de modèle) et via API. Il transforme la voix en texte avec une grande fidélité, idéal pour les transcriptions automatiques, les scripts vidéo ou les sous‑titres. Simple, rapide et open source.

👉 Les fonctionnalités de Voxtral (BDM)


DeepSeek

Le modèle chinois DeepSeek 3.1 s’aligne sur les géants occidentaux avec un système hybride capable de choisir lui‑même le moteur le plus adapté à la tâche. Traduction, résumé, veille multilingue : un concurrent sérieux à suivre de près.

👉  Découvrir DeepSeek

🎨 Coté génération d’images & vidéo 

Google

Google fait sensation en août avec la sortie de Nano Banana (Gemini Flash Image), un modèle de retouche d’images à partir de langage naturel et d’images de références qui défraie la chronique. On peut fusionner des images, changer un décor ou une tenue tout en gardant la cohérence visuelle. Accessible sur Gemini ou Google AI Studio.

👉 Essayer Nano Banana dans Google AI Studio (gratuit)


DeepMind  (Division de recherche en IA de Google) présente Genie 3, son world model capable de créer des mondes interactifs en 720p. L’utilisateur peut s’y déplacer librement : une révolution pour la formation et la simulation.

Le modèle n’est pas encore accessible au grand public mais représente une avancée majeure dans la génération d’images vidéos immersives.

Selon DeepMind, ces world models sont “des briques fondamentales vers l’intelligence artificielle générale”.

 👉 Pour en savoir plus sur la notion de world models et l’approche de DeepMind, voir l’article français de Metaneo : Avec Genie 3, Google DeepMind transforme les world models en simulateurs 3D jouables en temps réel.


Eleven Labs

Eleven Labs explore désormais le son avec Eleven Music, un générateur de bandes‑sons et de compositions musicales IA. L’outil permet de créer des morceaux originaux ou d’enrichir des vidéos existantes à partir d’un style, d’un tempo ou d’un extrait sonore.

👉 Site web d’ElevenLabs


 

Wan AI (Alibaba)

Côté vidéo, WAN 2.2 passe à la vitesse supérieure avec la génération image‑vers‑vidéo, accessible gratuitement. Le modèle permet de transformer des images fixes en séquences animées, en 720P à 24 fps. Disponible sur la plateforme Wan ou via des aggrégateurs de modèles comme Hugging Face.

👉 Site web de Wan 2.2


XAI

XAI dote Grok mobile de la génération vidéo, une première étape vers des outils de création de contenu natifs pour les réseaux sociaux. Les utilisateurs peuvent générer de courtes animations à partir de textes ou de publications sur X, facilitant la mise en scène rapide de concepts ou d’idées.