definition en une ligne
La latence de l'API est le temps entre l'envoi d'une requête à une API et la réception de la réponse. Elle affecte directement la rapidité avec laquelle votre produit est perçu par les utilisateurs.
formule : Latence API = Heure de réponse reçue - Heure de la demande envoyée. Mesuré en millisecondes (ms). Suivez les centiles p50 (médiane), p95 et p99.
tl;dr
Les utilisateurs ne pensent pas à la latence : ils se demandent si votre application est rapide ou lente. Toutes les 100 ms de latence API supérieure à 200 ms érodent la confiance dans votre produit. Mesurez la latence p95, pas les moyennes. Votre moyenne peut paraître excellente alors que 5 % des utilisateurs vivent une expérience épouvantable.
Définition simple
La latence de l'API est le temps aller-retour d'une requête : votre application demande quelque chose au serveur, le serveur le traite et envoie une réponse. Ce temps total, mesuré en millisecondes, correspond à la latence. Cela inclut le transit réseau, le traitement du serveur, les requêtes de base de données et tous les appels d'API externes effectués par votre serveur. Pour les fondateurs solo, la latence est importante car elle façonne directement l'expérience utilisateur. Un tableau de bord qui se charge en 150 ms semble instantané. Le même tableau de bord à 2 secondes semble cassé. Les utilisateurs ne vous diront pas « votre API est lente » ; ils cesseront simplement d'utiliser votre produit.
Comment le calculer
Latence API = Horodatage de réponse − Horodatage de la demande
Mesurez-le à trois niveaux :
- p50 (médiane) : la moitié des requêtes sont plus rapides que cela. Votre expérience utilisateur typique.
- p95 : 95 % des requêtes sont plus rapides. Votre référence pour "assez vite".
- p99 : 99 % sont plus rapides. Votre pire expérience régulière.
Utilisez des outils comme Vercel Analytics, Datadog ou même un simple middleware qui enregistre les temps de réponse. Suivez la latence par point de terminaison : votre /api/users peut être de 50 ms tandis que /api/reports est de 800 ms. Corrigez d’abord les plus lents.
Exemple
Vous construisez un outil de gestion de projet. L’appel de l’API de votre tableau de bord principal revient en 180 ms en moyenne. Ça se sent bien lors des tests. Mais votre p95 dure 1 400 ms, ce qui signifie qu’un chargement de page sur 20 prend plus d’une seconde. Vous creusez et constatez que les requêtes lentes se produisent lorsque les utilisateurs ont plus de 200 tâches. La requête de base de données analyse la table complète au lieu d'utiliser un index. Vous ajoutez un index composite sur (user_id, status, created_at). Le p95 passe de 1 400 ms à 220 ms. La moyenne change à peine – c’était déjà bien. Mais les utilisateurs qui avaient la pire expérience en ont désormais une bien meilleure, et votre rétention sur 7 jours dans cette cohorte s'améliore de 12 %.
Lecture connexe
- [Délai de valorisation](/glossaire/délai de valorisation)
- Durée de la session
Termes associes
- Délai de rentabilisation
- Durée de la séance
- Taux d'activation
FAQ
Quelle est la latence API acceptable pour un produit SaaS ?+
Moins de 200 ms pour les actions destinées à l'utilisateur (chargement de données, enregistrement des modifications). Moins de 500 ms pour les opérations complexes (recherche, génération de rapports). Au-dessus d'une seconde, les utilisateurs commencent à le remarquer. Au-dessus de 3 secondes et ils commencent à partir. Mesurez toujours p95, pas seulement la moyenne : vos utilisateurs les plus lents ont la pire expérience.
Comment puis-je réduire la latence de l'API avec un budget limité ?+
Commencez par les plus gros gains : ajoutez des index de base de données pour les requêtes lentes, implémentez la mise en cache des réponses pour les données qui ne modifient pas chaque requête, utilisez un CDN pour les actifs statiques et rapprochez géographiquement votre serveur de vos utilisateurs. Ces quatre changements peuvent à eux seuls réduire la latence de 50 à 80 % pour la plupart des applications démarrées.