Google dévoile TurboQuant, un algorithme capable de réduire la mémoire des LLM par six sans perte de précision, provoquant une chute immédiate des actions des fabricants de mémoire et relançant le débat sur le coût réel de l'IA.

Pas encore de commentaire. Lancez la discussion !
Google vient de dévoiler TurboQuant, un algorithme de compression qui pourrait bien redéfinir l'économie de l'intelligence artificielle. Présenté cette semaine par Google Research et destiné à être exposé à la conférence ICLR 2026, ce nouvel outil parvient à réduire la mémoire de travail des grands modèles de langage par un facteur six, sans aucune perte de précision mesurable. Sur les accélérateurs NVIDIA H100, sa version 4 bits affiche même un gain de performance multiplié par huit. En clair, les LLM pourraient bientôt fonctionner avec une fraction des ressources qu'ils exigent aujourd'hui.
Le fonctionnement de TurboQuant repose sur deux étapes complémentaires. La première, PolarQuant, applique une rotation aléatoire aux vecteurs de données pour simplifier leur géométrie. Concrètement, au lieu de décrire chaque point avec des coordonnées X/Y classiques, l'algorithme passe en coordonnées polaires — c'est-à-dire une distance et un angle. Ce changement de repère rend chaque composante plus facile à quantifier individuellement. La seconde étape utilise QJL (Quantized Johnson-Lindenstrauss), qui ajoute un seul bit de correction pour compenser l'erreur résiduelle laissée par PolarQuant. Le résultat : le cache clé-valeur des LLM passe de 16 bits à seulement 3 bits par valeur, tout en conservant la qualité des réponses — un niveau de compression qui semblait jusqu'ici hors de portée.
L'annonce n'a pas tardé à secouer Wall Street. Les actions des fabricants de mémoire ont immédiatement plongé : Micron a perdu 3 %, Western Digital 4,7 % et SanDisk 5,7 %. L'analyste Andrew Rocha de Wells Fargo a souligné que TurboQuant "s'attaque directement à la courbe des coûts de la mémoire dans les systèmes IA", tout en nuançant que la demande globale en mémoire pour l'IA reste structurellement forte et que les algorithmes de compression existent depuis des années sans avoir fondamentalement modifié les volumes d'achat. La mémoire n'étant qu'une composante parmi d'autres du coût d'un centre de données, l'impact financier réel reste à déterminer.
Il faut toutefois garder la tête froide. TurboQuant demeure pour l'instant un projet de recherche, testé sur les modèles open source Gemma et Mistral à travers cinq benchmarks de contexte long, mais pas encore déployé commercialement. Sur les réseaux sociaux, les internautes n'ont pas manqué de comparer l'algorithme au fameux "middle-out compression" de Pied Piper, la startup fictive de la série Silicon Valley de HBO. Un clin d'oeil amusant qui traduit à la fois l'enthousiasme et le scepticisme du public face aux promesses de compression miracle.
Si TurboQuant tient ses promesses à l'échelle industrielle, les implications sont considérables. Réduire la mémoire nécessaire par six signifie potentiellement démocratiser l'accès aux modèles les plus puissants, les rendre exécutables sur du matériel plus modeste et diminuer significativement la facture énergétique des centres de données. L'équipe de Google Research, menée par Amir Zandieh et Vahab Mirrokni en collaboration avec des chercheurs de DeepMind, du KAIST et de NYU, a posé une brique qui pourrait s'avérer fondamentale dans la course à l'efficacité de l'IA. Reste à voir si l'industrie adoptera cette technologie aussi vite que les marchés ont réagi à son annonce.