SEO
30
April
2025

Regex SEO : le mini-guide pour apprendre à les utiliser !

Les expressions régulières (ou regex) sont des outils permettant d’analyser, de filtrer et de modifier du texte. En SEO, elles sont particulièrement utiles pour auditer un site, configurer la Google Search Console et optimiser le crawl. 

Voici un guide pratique pour bien les utiliser.

Pourquoi utiliser les regex en SEO ?


Les regex sont un atout puissant notamment en SEO technique. Elles permettent d’identifier rapidement des motifs dans des URLs, des logs serveur ou encore des fichiers comme robots.txt.

En maîtrisant quelques bases, vous pouvez véritablement gagner un temps fou dans vos analyses. 

Il existe plusieurs bonnes raisons d’utiliser les regex en référencement naturel :

  • Filtrer des URLs dans Google Search Console pour mieux analyser les performances SEO.
  • Analyser les logs serveur et voir comment Googlebot explore votre site.
  • Optimiser un fichier robots.txt en bloquant certaines sections inutiles.
  • Trouver et corriger des problèmes de maillage interne en repérant des liens cassés.
  • Créer des règles avancées dans Google Analytics pour mieux segmenter les données.

Syntaxe de base des regex


Avant de plonger dans les regex comme un hacker chevronné, voici quelques bases essentielles :

  • ^ : Début de ligne (ex : ^https capture toutes les URLs commençant par "https").
  • $ : Fin de ligne (ex : .jpg$ capture toutes les URLs finissant par ".jpg").
  • . : N'importe quel caractère sauf retour à la ligne.
  • * : 0 ou plusieurs répétitions du caractère précédent.
  • + : 1 ou plusieurs répétitions du caractère précédent.
  • ? : 0 ou 1 occurrence du caractère précédent.
  • | : Opérateur "OU" (ex : jpg|png|gif capture les fichiers images de ces formats).
  • () : Groupe de capture (ex : (https|http):// capture les URLs en http et https).
  • [] : Classe de caractères (ex : [0-9] capture n'importe quel chiffre de 0 à 9).

Exemples de regex pratiques en SEO !


Nous vous avons listé ici les principales regex pouvant vous être utiles. Attention les yeux, ça risque de piquer un peu… 🙈

1. Filtrer les pages indexables dans Google Search Console

^(https://www\.mon-site\.com/)(blog|produits)/

➡ Capture toutes les pages situées dans "blog" ou "produits".

2. Trouver les URLs contenant des paramètres inutiles

\?.*

➡ Capture toutes les URLs contenant un "?", souvent synonyme de paramètres superflus.

3. Identifier les URLs en double avec ou sans "www"

^(https?://)?(www\.)?mon-site\.com

➡ Capture les URLs avec ou sans "www" et HTTP/HTTPS.

4. Vérifier les erreurs 404 dans les logs serveur

"GET (.*) HTTP.*" 404

➡ Trouve toutes les URLs ayant retourné une erreur 404.

5. Optimiser un fichier robots.txt

Disallow: /*?*

➡ Bloque toutes les pages contenant des paramètres dans l’URL.

Quels sont les outils permettant l’utilisation de regex ?

  • Regex101 : Idéal pour tester et comprendre vos regex.
  • Google Search Console : Permet d'appliquer des regex pour filtrer les performances SEO.
  • Screaming Frog : Pour appliquer des regex lors d’un audit SEO, par exemple.

Les pièges à éviter avec les regex en SEO

1. Regex trop larges capturant trop de résultats

Un jour, un SEO a voulu exclure une section de son site et a tapé dans son robots.txt :

Disallow: /.*

Résultat ? Son site entier s’est retrouvé bloqué pour Google. 

Solution

Toujours tester ses regex et être plus précis :

Disallow: /recherche\?q=*

➡ Ne bloque que les pages contenant des paramètres de recherche.

2. Mauvaise utilisation des caractères spéciaux

Certains caractères ont une signification spéciale en regex et doivent être échappés avec \.

www.mon-site.com/page(1|2|3)

🔴 Cette regex risque de ne pas fonctionner.

Solution

www\.mon-site\.com/page(1|2|3)

3. Confusion entre .* et .+

^https://www\.mon-site\.com/.*

➡ Capture toutes les pages, y compris / !

Solution :

^https://www\.mon-site\.com/.+

➡ Capture uniquement les pages avec un chemin après /.

4. Mauvaise prise en compte de la casse

Une regex classique :

^https://www.mon-site.com/Produits/

❌ Ne capture pas /produits/.

✅ Solution : 

Ajouter une regex insensible à la casse :

^https://www\.mon-site\.com/[Pp]roduits/

Regex VS autres filtres… : quelles différences ?

Quand on parle de filtrer des URLs ou d’analyser des logs en SEO, plusieurs méthodes existent. Les regex sont ultra-puissantes, mais elles ne sont pas les seules options.

1. Wildcards (Jokers) : la version simplifiée des regex

Les wildcards sont souvent utilisées dans des fichiers comme robots.txt ou dans certains outils SEO, mais elles sont bien plus limitées que les regex.

Exemple avec une wildcard :

bash

CopierModifier

Disallow: /blog/*

➡ Cela bloque toutes les pages sous /blog/, qu’il y ait ou non des sous-dossiers.

Équivalent en regex :

bash

CopierModifier

^https://www\.mon-site\.com/blog/.*

➡ Même résultat, mais avec plus de flexibilité, car on pourrait affiner davantage (ex : exclure certaines pages tout en bloquant d’autres).

Quand utiliser les wildcards ?

  • Pour des règles simples dans robots.txt ou sitemaps.xml.
  • Quand on ne veut pas se compliquer la vie avec des regex.

🚨 Limite : Impossible de faire des recherches avancées comme exclure certaines parties du site ou repérer des URLs spécifiques.

2. Expressions conditionnelles : les filtres des outils SEO

Certains outils comme Google Search Console, Screaming Frog ou Google Analytics proposent des filtres avancés qui ressemblent aux regex, mais qui sont en réalité des expressions conditionnelles.

Exemple avec un filtre conditionnel dans Screaming Frog :

  • Contient : filtre toutes les URLs contenant un mot donné (ex : blog)
  • Ne contient pas : exclut les URLs avec ce mot.
  • Commence par : filtre les URLs commençant par un certain préfixe.

Quand utiliser les expressions conditionnelles ?

  • Dans Google Search Console pour filtrer des pages en fonction de leur présence dans l’index.
  • Dans Screaming Frog pour isoler rapidement des erreurs sans taper une regex complexe.
  • Dans Google Analytics pour segmenter des données.

🚨 Limite : Moins flexible que les regex. Impossible de faire des règles avancées avec des groupes de capture ou des exclusions complexes.

Outil Simplicité Puissance Quand l'utiliser ?
Wildcards ⭐⭐⭐ Robots.txt, Sitemap.xml
Expressions conditionnelles ⭐⭐⭐ ⭐⭐ GSC, Screaming Frog
Regex ⭐⭐⭐⭐ Logs serveur, analyse avancée

En bref

Les regex sont un outil puissant pour optimiser votre SEO technique, mais leur utilisation demande de la précision. En maîtrisant les bases, vous gagnerez du temps et éviterez les erreurs courantes. 😉

On s'appelle ?
Sibylle Rolland
Experte contenu
Passionnée de content marketing, j’ai rejoint l'aventure Luneos en Janvier 2022. Mon objectif aujourd'hui ? Faire de votre site un puissant aimant à prospects grâce à des contenus taillés pour plaire à Google, ainsi qu'à votre cible. 😉‍

Toute l'actu du moment!