La synchronisation est au cœur de tout système audionumérique. Lorsque plusieurs appareils audio (convertisseurs A/N et N/A, consoles, enregistreurs…) travaillent ensemble, ils doivent partager une même référence temporelle afin que les échantillons s’alignent dans le temps.
Besoin de synchronisation
En audio, une horloge est le chef d’orchestre invisible du système. Son rôle est de donner le « top » à chaque échantillon sonore pour qu’il soit traité au bon moment.
Le problème survient lorsque plusieurs appareils numériques doivent travailler ensemble. Imaginons un préamplificateur qui transforme le son en une suite de chiffres (échantillons) et une table de mixage qui doit recevoir et traiter ces chiffres. Pour que cela fonctionne, les deux appareils doivent être parfaitement coordonnés dans le temps, comme deux personnes qui se passeraient un relais dans une course :
- Le préamplificateur lance les échantillons à une cadence fixe (par exemple, 48 000 fois par seconde).
- La table de mixage doit attraper chaque échantillon exactement au moment où il arrive.
Si chaque appareil utilise sa propre horloge interne, ils ne seront jamais parfaitement d’accord sur la durée exacte d’un échantillon. L’un sera toujours un peu plus rapide que l’autre. C’est comme si deux personnes essayaient de taper dans leurs mains au même rythme sans se regarder, au bout de quelques secondes, un décalage va forcément se créer.

Concrètement, comme on peut le voir sur le graphique ci-dessous, lorsque les échantillons arrivent dans la table de mixage, cette dernière les lit à des instants légèrement différents. Ces erreurs forcent l’appareil récepteur à jeter ou de répéter des échantillons, ce qui se traduit par des clics, des pops, ou des coupures de son.

Pour des signaux réels, ces micro-erreurs deviennent un bruit de fond ou une perte de définition stéréo. Pour contrer ce phénomène, plusieurs solutions ont vu le jour.
Wordclock
Le wordclock est un signal d’horloge carré qui bat à la fréquence d’échantillonnage du signal audionumérique. Il est typiquement transmis par câble coaxial d’impédance caractéristique 75 Ω. Il sert de référence commune pour tous les appareils audionumériques d’une installation, et permet ainsi de synchroniser la lecture/écriture de tous les équipements.
L’avantage du wordclock est qu’il est simple à implémenter dans une installation audio locale.
En pratique, il y a un maître qui génère le wordclock qui le distribue aux autres appareils qui sont esclaves.

Synchronisation via codecs
AES/EBU (AES 3)
Un signal audionumérique AES3 intègre directement l’horloge dans son flux. L’appareil récepteur extrait l’horloge directement du flux audionumérique grâce aux préambules des trames qui dictent la fréquence d’échantillonnage.

Lorsque l’on utilise plusieurs flux AES, on désigne celui qui est maître d’horloge pour éviter les conflits.
MADI (AES 10)
À l’origine, dans la norme AES10 qui régit le protocole MADI, il est noté qu’il faut utiliser un wordclock externe pour pouvoir synchroniser deux appareils. Notamment, car le débit binaire du MADI est fixe et ne dépend pas de la fréquence d’échantillonnage du signal. Mais, au fur et à mesure, les constructeurs ont réussi à pallier ce problème en déduisant directement une horloge stable depuis le flux MADI et ainsi, aujourd’hui, on achemine rarement un signal d’horloge en plus d’une entrée MADI.
PTP
Jusqu’ici, la synchronisation était assurée par des signaux physiques ou intégrés dans les flux audio : le wordclock, ou des protocoles comme AES3 et MADI qui embarquent leur propre horloge. Or, avec l’arrivée des systèmes audio sur IP, le modèle change complètement : l’audio n’est plus transmis sous forme de flux continus, mais sous forme de paquets asynchrones sur un réseau Ethernet (ou IP à plus grande échelle). Les signaux d’horloge traditionnels ne peuvent plus être distribués physiquement.
Pour garantir que tous les appareils du réseau restent calés à la même référence temporelle, on utilise un protocole normalisé de synchronisation d’horloge : le PTP (Precision Time Protocol) défini par la norme IEEE 1588. Le PTP a pour but de synchroniser les horloges de plusieurs appareils connectés sur un réseau avec une précision de l’ordre de la nanoseconde.
Principe
Comme auparavant, il y a une horloge maître et des horloges esclaves. Le principe est de mesurer le délai et le décalage temporel entre le maître et l’esclave avec une précision extrême en s’appuyant sur l’horodatage des cartes réseau elles-mêmes. Voyons comment le PTP procède :
1. Mesure du Décalage
Le maître envoie un message Sync horodaté par sa propre carte réseau. L’esclave note quand il le reçoit. Cette différence donne le décalage de l’esclave + le temps de trajet sur le réseau.
2. Mesure du Délai de Trajet
L’esclave renvoie une demande Delay Request au maître. Le maître l’horodate et la renvoie. Cela permet aux deux appareils de calculer le temps de trajet total sur le réseau.
3. Correction
En soustrayant le temps de trajet au décalage mesuré, l’esclave peut connaître son erreur exacte et ajuster son horloge.
Si la correction est grande, le système corrige l’horodatage directement. Si elle est petite, le système ajuste la fréquence du quartz progressivement pour une synchronisation parfaite.
Pour aller plus loin dans les calculs du PTP : Synchronizing Device Clocks Using IEEE 1588 and Blackfin Embedded Processors | Analog Devices
Sources
- Sonelec – Wordclock : MAO – Equipements – Word Clock
- AES – Synchronisation of Digital Audio E-library page – AES
- AES – Standard AES3 : AES Standard » AES3-2009 (r2019): AES standard for digital audio engineering – Serial transmission format for two-channel linearly represented digital audio data
- AES – Standard AES11 : AES Standard » AES10-2020: AES Recommended Practice for Digital Audio Engineering – Serial Multichannel Audio Digital Interface (MADI)
Synchronizing Device Clocks Using IEEE 1588 and Blackfin Embedded Processors, Wu, Peloquin, Analog Devices : Synchronizing Device Clocks Using IEEE 1588 and Blackfin Embedded Processors | Analog Devices