Afin d’éviter les phénomènes d’écho en salle de conférence, il est important de paramétrer correctement le routing et le traitement de la fonction d’annulation d’écho acoustique (AEC, Acoustic Echo Cancellation). Cet aspect est également l’un des plus exigeants lors de la conception de salles de conférence.
Le Conference Room Router (CRR) contribue à assurer une référence correcte à l’AEC. Toutefois, on se pose souvent des questions sur la façon dont les traitements appliqués à l’extérieur du CRR affectent la référence AEC, et il peut exister des conceptions utilisant l’AEC sans utiliser le CRR.
Vous trouverez ci-dessous quelques principes d’utilisation de la référence AEC dans des conceptions de salles de conférences réussies, et des conseils pour les applications communes.
La référence doit contenir les signaux appropriés.
En général, la référence AEC devrait recevoir un mix de tous les signaux distants, plus les programmes audio diffusés sur les enceintes. De plus, toutes les enceintes dans la salle devraient diffuser le même mix.
Signaux absents de la référence
Si un signal ne se trouve pas dans la référence AEC, l’algorithme ne l’annulera pas. Si un point de croisement de matrice entre une entrée distante et la référence AEC est coupé par erreur, l’écho sera audible à l’autre bout, mais le problème ne sera pas décelable dans la salle, en local. C’est un piège classique, que le CRR permet d’éviter.
Si le programme audio n’est pas inclus dans la référence, le correspondant distant entendra peut-être une version confuse ou réverbérée du programme audio (intégrant le mix direct du programme audio envoyé au point distant, avec tout ce qui est capté en local par les micros). Le résultat est moins mauvais que l’écho du point distant, mais toujours pas idéal. Dans la plupart des cas, il est préférable d’intégrer le programme audio dans la référence AEC. Une exception à cette règle est le cas de l’audio positionnel, décrit ci-après.
Signaux supplémentaires dans la référence
Si un signal est envoyé dans la référence AEC sans être diffusé sur l’enceinte, l’AEC pourrait diverger dès que le signal est actif. Lorsque le signal est actif, le microphone ne détectera pas de signal audio correspondant. L’AEC convergera vers un chemin de signal sans écho, et devra reconverger lorsqu’un signal distant (faisant partie de la référence AEC) deviendra actif.
Renfort vocal
Certains concepteurs intègrent des signaux de microphones dans leurs propres références AEC afin d’essayer d’améliorer le gain avant Larsen dans les systèmes de renfort vocal. L’avantage de procéder ainsi se discute, mais le résultat peut être intéressant dans certaines salles. Dans d’autres cas, la réduction de Larsen obtenue grâce à l’AEC peut être variable, ou on peut percevoir un écho résiduel à l’autre bout de la liaison lors d’une double prise de parole.
Dans la plupart des cas, il est préférable d’utiliser des signaux de microphone pré-AEC pour le renfort vocal, et de laisser les microphones hors des références AEC. On obtient ainsi la latence la plus basse pour le renfort local, sans provoquer de problèmes pour l’AEC.
Utilisation en stéréo
Stéréo Les signaux stéréo dans une référence AEC mono constituent théoriquement un problème. Si le signal stéréo possède une séparation des canaux prononcée, le signal diffusé sur l’enceinte gauche sera significativement différent de celui diffusé sur l’enceinte droite. Les chemins d’écho entre les enceintes gauche ou droite et le microphone possèdent des réponses impulsionnelles différentes, et un AEC mono ne peut converger vers les deux en même temps. Un AEC avec référence stéréo est conçu pour gérer ce problème correctement, alors qu’un AEC mono ne le peut pas.
Dans la pratique, un AEC avec une référence mono fonctionnera correctement la plupart du temps dans une salle de conférence stéréo. Sauf dans le cas de salles de téléprésence personnalisées à l’extrême, les microphones sont rarement panoramiqués, même s’ils sont envoyés à des codecs stéréo. L’audio distant est presque toujours mono, et c’est l’audio distant qui constitue notre intérêt principal au niveau de l’AEC.
Sur des programmes audio riches en dialogues, la plus grande partie de l’énergie provient du centre, et sera annulée même avec un AEC mono. Si un écho résiduel du programme audio est audible, il possédera une faible latence, et sera probablement perçu à l’autre bout de la liaison comme une réverbération supplémentaire ou une sorte de confusion, et non comme un écho distinct.
Audio positionnel
Audio positionnel L’audio positionnel est différent de la stéréo, en ce sens que chaque enceinte restitue un canal audio distinct et différent. Par exemple, une salle de téléprésence pourrait posséder deux codecs reliés à des sites différents, et diffuser le son provenant de chaque site sur des enceintes placées près de l’écran correspondant. Pour un tel type de système, un AEC avec une référence multicanal est nécessaire pour annuler correctement l’écho. Avec une référence AEC mono, on entendrait souvent de l’écho dans ce type de système, dès que quelqu’un commencerait à parler à une extrémité différente.
L’audio positionnel peut fonctionner si une seule position d’enceinte est utilisée à la fois. Par exemple, on préférera des enceintes au plafond ou de table lors d’une conférence uniquement vocale, puisque les participants locaux regarderont vers le centre de la table. Lors d’une visioconférence, on préférera utiliser des enceintes situées à proximité de l’écran. Si un signal audio distant composé uniquement de voix est également diffusé sur les enceintes de l’écran lors d’une visioconférence, une référence AEC mono peut gérer les deux scénarios (toutefois, un écho peut être perceptible jusqu’à ce que l’AEC converge au début d’un appel après commutation entre les deux modes).
Si le programme audio est diffusé sur des enceintes différentes de celles utilisées pour l’audio distant (par exemple, programme audio diffusé sur des enceintes frontales et audio distant diffusé sur des enceintes plafonniers), il peut être préférable de laisser le programme audio hors de la référence AEC. Il peut en résulter un son un peu confus provenant de l’autre bout de la liaison, mais l’apparition d’un écho audible est beaucoup moins probable.
Combinaison de salles
La combinaison de salles en elle-même ne constitue pas la cause de problèmes d’AEC. Toutefois, si la combinaison de salles est effectuée à la main avec des jeux de paramètres ajustant les points de croisement de matrice, il est assez facile de commettre des erreurs. Certaines références AEC peuvent facilement contenir des signaux audio distants ou de programmes superflus, ou au contraire, être privées de signaux audio nécessaires. On percevra alors de l’écho depuis les microphones associés, et il sera parfois très difficile de diagnostiquer le problème. Heureusement, le combineur de salles de conférence (Conference Room Combiner, ou CRC) enlève ce fardeau des épaules du concepteur, et évite ce type d’erreur.
Même avec un système de combinaison de salle correctement configuré, on peut percevoir brièvement un écho après le changement de configuration de la salle. Ce changement modifie le chemin de l’écho entre paires de microphones et d’enceintes dans les différentes partitions, et l’AEC doit effectuer une nouvelle convergence une fois que cette modification est intervenue.
Le chemin d’écho ne doit pas contenir de traitements non linéaires ou variant dans le temps
Le filtre adaptatif de l’AEC ne peut modéliser qu’un chemin d’écho linéaire et invariant dans le temps. Tout traitement non linéaire ou variant temporellement situé dans le chemin d’écho peut dégrader considérablement les performances de l’AEC. Le terme « chemin d’écho » désigne
• Tout traitement sur les sorties d’enceintes non présent sur la référence AEC
• Le chemin acoustique entre l’enceinte et le microphone (y compris l’enceinte et le microphone eux-mêmes)
• Tout traitement sur l’entrée microphone avant l’AEC
Le schéma ci-dessous correspond à une conception de salle de conférence typique. Les flèches des signaux faisant partie du chemin d’écho sont en rouge.
S’applique à:
Traitements dynamiques
Les traitements dynamiques sont susceptibles de modifier le gain en permanence. S’ils sont appliqués dans le chemin d’écho, l’AEC doit se réadapter en permanence à ces changements de gain, ce qui se traduit par une forte probabilité d’apparition d’écho résiduel fréquent.
On insère souvent des compresseurs/limiteurs sur les sorties pour enceintes, afin d’éviter l’écrêtage. Si un tel traitement est nécessaire, la référence AEC doit être créée depuis le signal d’enceinte, après compresseur/limiteur (ce qui signifie que la sortie de référence AEC du CRR ne serait pas utilisée). Si le signal pour les enceintes est stéréo, il doit être réduit en mono après compression/limitation avant envoi dans la référence AEC.
Tenter de compenser le traitement dynamique sur la sortie pour enceintes en plaçant le même traitement, avec les mêmes paramètres, avant la référence AEC peut ne pas donner de résultats fiables. Il existe un risque que les deux blocs de traitement dynamique n’appliquent pas le même gain au même instant, notamment si la réduction stéréo/mono dans le CRR se traduit par un niveau légèrement différent en entrée d’un compresseur/limiteur mono par rapport aux niveaux « vus » par un compresseur/limiteur stéréo placé sur les sorties pour enceintes.
Si un traitement dynamique est nécessaire sur les entrées micro, mieux vaut l’appliquer après AEC.
Mixage automatique des microphones
Les mélangeurs automatiques de microphones modifient en permanence le gain sur chaque canal de microphone. Lorsqu’ils passent d’un microphone à un autre, le chemin d’écho dans le mixage change de façon importante. Il est tentant de placer un AMM quand on ne possède qu’un seul canal d’AEC, suite à des ressources limitées. Toutefois, les changements de gain dans le chemin d’écho font que de façon générale, l’AEC donne des résultats médiocres. Un AEC devrait être placé sur chaque signal micro avant l’AMM.
Contrôle du volume
Le contrôle de volume pose le même problème que le traitement dynamique, mais moins souvent. Si un contrôle de volume est appliqué dans le chemin d’écho, un écho résiduel peut être brièvement audible après changement de volume par un utilisateur.
Distorsion
Il est improbable d’introduire intentionnellement de la distorsion dans le chemin de signal d’un système de conférence. Mais une mauvaise structure de gain ou des composants de mauvaise qualité peuvent créer de la distorsion dans le chemin d’écho. La distorsion ne peut être modélisée par l’AEC, ce qui se traduira par l’apparition d’un écho résiduel. Cet écho sera affecté d’une distorsion importante (beaucoup plus que le signal de microphone avant AEC).
Tout traitement linéaire et invariant temporellement est (habituellement) sans problème
Tout traitement linéaire et invariant temporellement peut être modélisé par le filtre adaptatif de l’AEC. Seuls les paramétrages extrêmes de ce type de traitement peuvent constituer un problème.
Gain
Un fixe ne pose généralement pas de problèmes à l’AEC, à moins d’appliquer des valeurs extrêmes (souvent consécutives à une mauvaise structure de gain). Souvent, les problèmes induits par de mauvais réglages de gain seront créés par la distorsion ainsi provoquée, et non par le gain lui-même.
Dans certaines conceptions, on applique un gain important au niveau de l’amplificateur, et le réglage du volume applique une atténuation marquée au signal. Dans ce cas, le signal de référence AEC est d’un niveau très bas, ce qui peut affecter le comportement du détecteur de double prise de parole de l’AEC. Idéalement, la référence AEC devrait « voir »des signaux de niveau nominal correct lorsque le réglage du volume se trouve à une position confortable.
Égalisation
Normalement, on peut appliquer de l’égalisation dans le chemin d’écho sans provoquer de problèmes. Il n’est pas nécessaire de baser la référence AEC sur la version égalisée du signal, ni de dupliquer l’EQ sur la référence AEC. Si l’EQ sert à compenser la réponse de l’enceinte et de la salle, une référence AEC non égalisée sera probablement plus représentative du chemin d’écho.
De même, tout filtre inséré sur une entrée microphone est généralement inoffensif, et peut être appliqué avant AEC si désiré. Dans certains cas, par exemple avec un filtre passe-haut (HPF) inséré sur un micro captant un bruit de fond élevé dans le grave, il peut être intéressant d’appliquer l’EQ avant l’AEC.
En cas d’utilisation de filtrage (crossovers), la référence AEC doit recevoir le signal pleine bande, et non l’une des sorties du crossover.
Si l’EQ provoque une augmentation importante du niveau du signal, l’AEC peut se comporter légèrement mieux si cette augmentation est répercutée dans la référence AEC.
Retard
Un délai modéré dans le chemin d’écho ne pose pas de problème à l’AEC. Certains délais existent naturellement, suite à la distance séparant l’enceinte et le microphone, ou au buffers audio dans le système.
En revanche, des délais excessifs (plusieurs dizaines de millisecondes) peuvent poser problème à l’AEC. Le délai a comme conséquence de réduire la durée de la fenêtre temporelle disponible du filtre adaptatif de l’AEC. Il peut aussi tromper le détecteur de double parole de l’AEC, en déformant l’alignement temporel de la référence AEC et de l’écho.
Le délai dans le chemin d’écho n’est pas forcément ajouté par le concepteur. De nombreux écrans ajoutent un délai audio (parfois supérieur à 100 ms) pour respecter la synchronisation labiale (lip sync). Ajouter un délai au signal de référence AEC uniquement peut être nécessaire pour compenser ce délai de lip sync.
Attention à ne pas appliquer un délai supérieur, avant l’AEC, à celui qui existe dans le chemin d’écho. On se retrouverait alors avec un écho non causal (l’écho arrive avant la référence), ce que l’AEC ne peut modéliser, et qui se traduira par un écho audible à l’autre extrémité de la liaison.