L’architecture de Big Sleep : LLM, reproduction automatique et supervision humaine
Big Sleep repose sur un modèle de langage de grande taille (LLM), conçu pour analyser du code source à la recherche de vulnérabilités connues, mais aussi pour identifier des failles de logique encore jamais détectées. Il s'agit d'une IA capable de :
Lire et comprendre du code multilingue (C, Python, JavaScript, etc.)
Simuler l’exécution de fonctions critiques
Détecter des anomalies ou des motifs vulnérables
Reproduire automatiquement les bugs pour validation
Selon Heather Adkins, vice-présidente sécurité chez Google, l’agent a été « entièrement responsable de la détection et de la reproduction des vulnérabilités », tout en précisant qu’un expert humain valide chaque rapport avant sa diffusion afin d'assurer leur exactitude et leur pertinence, explique TechCrunch.
Lire et comprendre du code multilingue (C, Python, JavaScript, etc.)
Simuler l’exécution de fonctions critiques
Détecter des anomalies ou des motifs vulnérables
Reproduire automatiquement les bugs pour validation
Selon Heather Adkins, vice-présidente sécurité chez Google, l’agent a été « entièrement responsable de la détection et de la reproduction des vulnérabilités », tout en précisant qu’un expert humain valide chaque rapport avant sa diffusion afin d'assurer leur exactitude et leur pertinence, explique TechCrunch.
20 vulnérabilités détectées : FFmpeg, ImageMagick, SQLite et d’autres logiciels critiques
Les premiers résultats opérationnels de Big Sleep sont significatifs. L’agent a repéré 20 vulnérabilités dans plusieurs outils populaires de l’écosystème open source, notamment :
FFmpeg (librairie de traitement audio/vidéo)
ImageMagick (suite de traitement d’images)
SQLite (moteur de base de données)
Redis, Spidermonkey, Expat, entre autres.
Ces failles ont été classées P2 (priorité élevée) selon les critères de sécurité internes de Google. Leur gravité précise reste confidentielle tant que les correctifs n’ont pas été déployés, conformément à la politique de divulgation responsable pratiquée par Project Zero.
Un cas remarquable est celui de la faille CVE‑2025‑6965 dans SQLite, qui aurait pu être exploitée dans des scénarios critiques. Big Sleep l’a identifiée avant toute exploitation active, ce qui, selon Google, constitue la première interruption réussie d’une menace zero-day par une IA sans assistance initiale humaine (cloud.google.com).
FFmpeg (librairie de traitement audio/vidéo)
ImageMagick (suite de traitement d’images)
SQLite (moteur de base de données)
Redis, Spidermonkey, Expat, entre autres.
Ces failles ont été classées P2 (priorité élevée) selon les critères de sécurité internes de Google. Leur gravité précise reste confidentielle tant que les correctifs n’ont pas été déployés, conformément à la politique de divulgation responsable pratiquée par Project Zero.
Un cas remarquable est celui de la faille CVE‑2025‑6965 dans SQLite, qui aurait pu être exploitée dans des scénarios critiques. Big Sleep l’a identifiée avant toute exploitation active, ce qui, selon Google, constitue la première interruption réussie d’une menace zero-day par une IA sans assistance initiale humaine (cloud.google.com).
Une avancée technologique, mais un encadrement strict
Malgré les performances affichées, Google reste prudent. Le groupe insiste sur une intégration contrôlée de l’IA dans ses processus de cybersécurité :
Big Sleep est encadré par des garde-fous algorithmiques pour limiter les faux positifs.
Un processus de revue manuelle est imposé avant toute diffusion publique de faille.
Les résultats sont publiés via une plateforme de suivi transparente, dans le cadre d’une stratégie dite secure-by-design.
Mais ces technologies ne sont pas sans limites. Des développeurs open source ont déjà rapporté des cas de rapports de bogues générés par IA, non reproductibles, qualifiés de « AI slop », un phénomène dénoncé par Ionescu lui-même. L’enjeu des prochaines années ne réside pas uniquement dans la détection automatisée, mais dans la fiabilité des résultats et la réduction des faux positifs. L’IA ne remplace pas les experts humains, mais les augmente en traitant des volumes de données inaccessibles aux méthodes traditionnelles.
Big Sleep est encadré par des garde-fous algorithmiques pour limiter les faux positifs.
Un processus de revue manuelle est imposé avant toute diffusion publique de faille.
Les résultats sont publiés via une plateforme de suivi transparente, dans le cadre d’une stratégie dite secure-by-design.
Mais ces technologies ne sont pas sans limites. Des développeurs open source ont déjà rapporté des cas de rapports de bogues générés par IA, non reproductibles, qualifiés de « AI slop », un phénomène dénoncé par Ionescu lui-même. L’enjeu des prochaines années ne réside pas uniquement dans la détection automatisée, mais dans la fiabilité des résultats et la réduction des faux positifs. L’IA ne remplace pas les experts humains, mais les augmente en traitant des volumes de données inaccessibles aux méthodes traditionnelles.