AEC – Grundlagen

Durch die Acoustic Echo Cancellation (Akustische Echokompensation, AEC) wird verhindert, dass Teilnehmer auf der Gegenseite einer Telefonkonferenz das Echo ihrer eigenen Stimmen hören. Bei einem Telefongespräch oder einer Telefonkonferenz sprechen wir vom „Near End“ und vom „Far End“. Das „Near End“ ist dort, wo Sie sich befinden und das „Far End“ ist der Standort der anderen Gesprächsteilnehmer. Auf beiden Seiten sind mindestens ein Mikrofon und ein Lautsprecher vorhanden.

Während Sie sprechen, wird Ihre Stimme vom Mikrofon aufgenommen und zu Ihrem Gesprächspartner übertragen, wo sie über den Lautsprecher wiedergegeben wird. Wenn am „Far End“ gesprochen wird, ermöglichen das „Far End“-Mikrofon und die „Near End“-Lautsprecher, dass Sie hören, was Ihr Gesprächspartner am „Far End“ sagt.

Wenn das Mikrofon nur auf jeweils einer Seite eingeschaltet ist, besteht kein Problem. In diesem Fall spricht man von Halb-Duplex-Übertragung, die keine besonders zufriedenstellende Art der Kommunikation darstellt. Die Gesprächsteilnehmer müssen ihre Mikrofone jedes Mal stummschalten, während ein anderer Teilnehmer spricht. Dadurch können Sie nicht hören, was auf der anderen Seite gesagt wird, während Sie sprechen und wenn Sie etwas sagen möchten, während am „Far End“ gesprochen wird, ist dies erst möglich, wenn dort nicht mehr gesprochen wird und Sie Ihr Mikrofon wieder einschalten können. Aus diesen Gründen ist die Halb-Duplex-Übertragung in den meisten Fällen nicht geeignet.

Sobald beide Mikrofone gleichzeitig eingeschaltet werden, wird es problematisch. Dies wird Voll-Duplex-Übertragung genannt. Wenn der Teilnehmer am „Far End“ zu sprechen beginnt, wird seine Stimme vom sich dort befindlichen Mikrofon aufgenommen und zum Lautsprecher am „Near End“ übertragen. Der vom Lautsprecher am „Near End“ wiedergegebene Schall wird dann vom dortigen Mikrofon aufgenommen und zurück zum Lautsprecher am „Far End“ übertragen. Dies scheint zunächst vielleicht kein Problem darzustellen, aber die Umlauflatenz einer analogen Telefonverbindung beträgt für gewöhnlich mindestens 80 bis 100 Millisekunden. Bei VoIP-Gesprächen sind die Latenzen sogar noch länger und die Latenz einer Videokonferenz kann eine Sekunde oder mehr betragen. Dies bedeutet, dass Teilenehmer am „Far End“ jedes Mal, wenn sie sprechen, das Echo ihrer eigenen Stimmen hören, was die Kommunikation extrem erschwert.

Ein Audiosignal kann durch eine invertierte Version desselben Signals aufgehoben werden. Warum sollte es nicht auch möglich sein, dass das Mikrofon den vom Lautsprecher wiedergegebenen Schall ignoriert? Wir wissen genau, wie das Audiosignal aussieht, wenn es zum Lautsprecher übertragen wird. Das entspricht jedoch nicht genau dem Signal, das vom Mikrofon aufgenommen wird. Das vom Lautsprecher wiedergegebene Audiosignal wird mehrfach von den Oberflächen im Raum reflektiert und der reflektierte Schall trifft zu verschiedenen Zeitpunkten auf das Mikrofon. Bei jeder Reflexion wurden unterschiedliche Frequenzen von den verschiedenen Oberflächen und Objekten im Raum absorbiert oder blockiert. Jede dieser Reflexionen hat nun ihren eigenen Klang und unterscheidet sich vom ursprünglichen Signal.

Um den vom Lautsprecher wiedergegebenen Schall vom Mikrofon fernzuhalten, muss der AEC-Algorithmus zunächst bestimmen, wie das Audiosignal aussieht, wenn es auf das Mikrofon trifft. Der AEC-Algorithmus vergleicht das Audiosignal des Mikrofons mit dem Signal, das zum Lautsprecher übertragen wird, um eine Impulsantwort im Raum zu erzeugen. Die Impulsantwort im Raum wird dann als Grundlage für den Filter verwendet, der das Audiosignal des Lautsprechers aus dem Mikrofonsignal beseitigt.