Écran d'ordinateur affichant une page web partiellement chargée avec un robot Googlebot miniature

Le 31 mars 2026, Google a publié un article détaillé sur le Search Central Blog révélant le fonctionnement interne de Googlebot — et une limite technique que la plupart des sites ignorent : Googlebot ne télécharge que les 2 premiers mégaoctets de chaque page HTML. Tout ce qui se trouve au-delà est purement et simplement ignoré.

Ce que Google vient de confirmer

Gary Illyes, analyste chez Google, détaille pour la première fois les mécanismes précis du crawl dans un billet accompagné de l'épisode 105 du podcast Search Off the Record.

2 Mo Limite HTML par URL (headers inclus)
64 Mo Limite pour les fichiers PDF
15 Mo Limite par défaut pour les autres crawlers Google

Les points clés :

  • Googlebot n'est pas un seul programme. C'est une infrastructure centralisée utilisée par Google Search, Shopping, AdSense et des dizaines d'autres produits — chacun avec ses propres réglages.
  • Fetch partiel. Si votre HTML dépasse 2 Mo, Googlebot coupe à 2 Mo pile. Il ne rejette pas la page : il indexe ce qu'il a récupéré comme si c'était le fichier complet.
  • Les octets invisibles n'existent pas. Tout contenu, structured data ou balise meta situé au-delà de la coupure est ignoré. Pas crawlé, pas rendu, pas indexé.
  • Les ressources externes ont leur propre compteur. CSS et JavaScript chargés en externe ne comptent pas dans les 2 Mo de la page parent — mais chacun a sa propre limite de 2 Mo.

Pourquoi ça concerne votre site

Pour la majorité des sites, 2 Mo de HTML est un seuil confortable. Mais certaines architectures courantes le dépassent sans que les équipes ne s'en rendent compte :

  • Images inline en base64 — une seule image encodée peut peser 500 Ko à 1 Mo
  • CSS et JavaScript inline massifs — les frameworks qui injectent tout dans le HTML (certaines configs SSR) gonflent le document
  • Méga-menus et footers dupliqués — un menu de navigation avec 200 liens avant le contenu principal repousse vos éléments critiques
  • Pages catalogue e-commerce — des centaines de produits avec leur balisage schema injecté dans le HTML

Le risque concret : vos balises E-E-A-T, vos données structurées, votre contenu principal ou vos liens internes se retrouvent après la coupure — et Google ne les voit jamais.

3 actions à faire maintenant

  1. Mesurez le poids de vos pages HTML. Pas le poids total (avec images), mais le HTML brut. Dans Chrome DevTools : onglet Network → filtrez par Doc → regardez la colonne "Size". Si une page dépasse 1,5 Mo, vous êtes dans la zone de risque.
  2. Externalisez CSS et JS. Déplacez les styles et scripts inline vers des fichiers externes. Chaque fichier externe a son propre compteur de 2 Mo — vous gagnez de l'espace dans le document principal pour votre contenu réel.
  3. Ordonnez vos balises. Google le dit explicitement : placez les éléments critiques — meta tags, canonical, structured data, balises hreflang — en haut du HTML. Si vous avez un méga-menu de 300 lignes avant votre <main>, déplacez-le après le contenu ou chargez-le en JS.

À retenir : Google précise que cette limite « n'est pas gravée dans le marbre et pourra évoluer ». Mais en attendant, chaque octet compte. Optimisez votre HTML comme vous optimisez votre temps de chargement.

L'analyse Cicero

Cette annonce officialise ce que les spécialistes du SEO technique suspectaient depuis des années. La vraie nouveauté, c'est la transparence : Google publie ses limites noires sur blanc. Pour les PME qui utilisent des CMS avec du contenu généré ou des pages produits lourdes, c'est un signal clair — allégez votre HTML ou acceptez que Google ne voie qu'une partie de votre site. Un audit SEO permet d'identifier les pages à risque en quelques heures.

Sources

Votre HTML est-il trop lourd pour Google ?

On audite votre site gratuitement : poids des pages, structured data, indexation.

Alexis Dollé, fondateur de Cicéro
Alexis Dollé
CEO & Fondateur

Spécialiste du growth et de la stratégie de contenu SEO, j'ai lancé Cicéro pour aider les entreprises à capter une visibilité organique durable — sur Google comme dans les réponses des IA. Chaque contenu qu'on produit est pensé pour convertir, pas juste pour exister.

LinkedIn