Audio 3D – épisode 6
Après avoir passé en revue les différents types de sons susceptibles de venir constituer notre paysage sonore en 3D, intéressons-nous à un aspect crucial de l’exploitation, en l’occurrence la grammaire permettant aux différents équipements utilisés d’échanger des données en temps réel. Parlons ADM et ADM-OSC.
Standardiser les métadonnées
Comme souvent avec l’apparition de nouvelles approches technologiques, chaque développeur, chaque fabricant, crée un langage « maison », qui lui est propre et qui se garde bien d’être compatible avec ceux des concurrents. Ce comportement n’est pas apparu récemment. Les plus chenus d’entre nous se souviennent peut-être qu’au début de la démocratisation des XLR, deux standards différents existaient, avec le point chaud en broche 2 ou 3, suivant les marques !
On retrouve ce même type de schisme avec le numérique, dans une multitude d’algorithmes, tous plus intéressants les uns que les autres, mais qui ne peuvent pas nécessairement se parler, donc cohabiter dans un même univers de production.
À terme, soit un seul format subsiste, celui du plus fort. Peu à peu, fabricants et organismes de recherche finissent par se parler dans le but de créer un standard avec lequel il serait possible d’interagir.
Pour les plus curieux d’entre nous, voici le premier document de l’EBU spécifiant les métadonnées gérées par l’ADM.
Concernant le son 3D en direct, dès 2015, des ingénieurs du son de Radio France ont commencé à étudier des scènes objet complexes avec l’automation des coordonnées de position d’objets sonores via le plug-in ToscA développé à l’IRCAM et basé sur de l’OSC (Open Sound Control). ToscA est destiné à envoyer et recevoir des données d’automation. Deux ans plus tard, les premiers enregistrements en ADM – Audio Definition Model – étaient effectués.
L’ADM est un format basé sur de l’XML, qui permet de générer et d’enregistrer des métadonnées de description associées aux sons. C’est un standard ouvert destiné à décrire les propriétés techniques de l’audio.
L’Audio Definition Model (ADM)
Il se compose de deux parties principales. Le « Content » décrit les éléments audio comme la langue des dialogues, le loudness ou le type de son. Le « Format », quant à lui, contient les informations techniques nécessaires au décodage, comme les coordonnées spatiales d’azimut, d’élévation et de distance des objets sonores ou encore l’ordre des composants Ambisonics.
Il utilise un schéma XML pour associer ces métadonnées à des fichiers audio, de type Broadcast Wave Format – BWF par exemple, permettant une compatibilité entre les formats orientés canaux, objets et scène.
Principaux avantages de l’ADM
Tout d’abord sa flexibilité et son universalité. Un fichier ADM permet l’adaptation dynamique du contenu audio selon le dispositif d’écoute, que ce soit un système de diffusion sur haut-parleurs simple ou disposant de multiples points de diffusion, en passant par les dispositifs domestiques comme des barres de son, et sans oublier la déclinaison binaurale, l’audio spatial au casque. À noter qu’avec l’écoute au casque associée à l’ADM, il est aussi possible d’implémenter des systèmes de tracking de position qui interagiront avec le contenu sonore pour compenser les mouvements de la tête pour assurer un ancrage de l’environnement sonore 3D. C’est particulièrement intéressant lorsque l’audio est lié à un contenu visuel.
Ensuite, l’interactivité. Chaque utilisateur peut potentiellement personnaliser son écoute. À partir d’une interface utilisateur dialoguant avec le processeur, il est possible de jouer sur les paramètres des sons. Dans le cadre domestique, l’utilisateur pourra agir en fonction de ses envies ou besoin du moment, en supprimant les commentaires d’un événement sportif par exemple, ou inversement en les privilégiant par rapport au reste du son mixé. Dans un usage professionnel, on imagine la possibilité pour chacun de choisir la version de langue qu’il souhaite lors d’une conférence internationale, mais les idées d’usages sont sans limites.