
회의실 음향 제어의 핵심, 하울링 캔슬링(AEC) 기술 분석
화상회의 도중 갑자기 터지는 "삐~" 하는 하울링 소리, 혹은 자신의 목소리가 메아리처럼 돌아오는 에코 현상은 단순한 불편함이 아닙니다. 이 문제는 회의 집중도를 저하시키고, AI 음성인식 엔진의 정확도를 수십 퍼센트 이상 떨어뜨리는 주요 원인입니다. 깨끗한 음질 없이는 아무리 정교한 STT 모델도 제대로 동작하지 않습니다. 이 글에서는 에코와 하울링이 발생하는 물리적 원리부터, 이를 제거하는 AEC(Acoustic Echo Cancellation) 기술의 알고리즘, 그리고 플러스랩스가 실제 회의실 환경에서 어떻게 음향을 최적화하는지를 기술적으로 설명합니다.
에코와 하울링, 왜 발생하는가?
에코(Echo)는 스피커에서 출력된 원격 참석자의 음성이 회의실 벽, 천장, 유리면 등에 반사되어 마이크에 다시 입력되는 현상입니다. 이 신호가 다시 원격지로 전송되면, 원격 참석자는 자신의 목소리가 0.1~0.5초 뒤처져 되돌아오는 에코를 듣게 됩니다. 하울링(Howling 또는 Feedback)은 이 과정이 반복·증폭될 때 발생합니다. 마이크 → 스피커 → 마이크로 이어지는 음향 피드백 루프가 특정 주파수에서 이득(Gain)이 1을 초과하면 폭주 증폭이 시작되어 날카로운 고음이 발생합니다. 문제의 심각성은 회의실 크기, 마이크·스피커의 상대적 위치, 실내 흡음 특성(RT60 잔향 시간)에 따라 크게 달라집니다. 넓고 반사면이 많은 대형 회의실일수록 에코 경로가 복잡해져 처리가 어려워집니다.
에코 발생 원리 — 스피커 출력 신호가 마이크를 통해 되돌아오는 피드백 루프
AEC(음향 에코 캔슬링) 기술의 원리
AEC는 스피커로 출력되는 신호(참조 신호, Reference Signal)를 별도로 기록하고, 마이크 입력 신호에서 에코 성분을 추정하여 제거하는 기술입니다. 핵심 알고리즘은 적응형 필터(Adaptive Filter)입니다. 대표적으로 LMS(Least Mean Squares)와 그 변형인 NLMS(Normalized LMS), RLS(Recursive Least Squares) 알고리즘이 사용됩니다. 적응형 필터는 참조 신호(스피커 출력)와 마이크 입력의 차이를 오차(Error Signal)로 정의하고, 이 오차를 최소화하도록 필터 계수를 반복적으로 갱신합니다. 실제 회의실의 에코 경로는 수십~수백 밀리초에 걸친 복잡한 임펄스 응답(Room Impulse Response)을 가지므로, 수백~수천 탭(Tap)의 필터가 필요하며 실시간 처리를 위해 주파수 도메인 LMS(FDAF) 방식이 일반적으로 사용됩니다.
AEC 처리 흐름 — 참조 신호와 마이크 입력을 결합한 적응형 필터링
회의실 음향 설계의 중요성
AEC 소프트웨어만으로는 한계가 있습니다. 물리적인 회의실 음향 설계가 뒷받침되어야 AEC의 효과가 극대화됩니다. 가장 중요한 지표는 RT60(잔향 시간)으로, 소리가 60dB 감쇠하는 데 걸리는 시간입니다. 음성 회의에 적합한 RT60은 0.3~0.5초입니다. RT60이 이보다 길면 에코 경로가 복잡해져 적응형 필터의 수렴이 어려워지고, 너무 짧으면 음성이 건조하게 들려 피로도가 높아집니다. 흡음재(유리솜, 폼 패널, 패브릭 파티션)를 적절히 배치하고, 마이크는 스피커로부터 최대한 멀리 배치하는 것이 기본 원칙입니다. 또한 천장 반사를 줄이기 위한 확산판(Diffuser) 설치도 효과적입니다.

- •RT60 측정: 스위프 사인(Sine Sweep) 신호를 이용한 임펄스 응답 측정으로 RT60 및 EDT 계산
- •흡음재 배치: 초기 반사(Early Reflection)가 집중되는 측벽, 천장 1/3 구간에 우선 적용
- •마이크 위치: 스피커와 최소 1.5m 이상 거리 확보, 테이블 중앙 설치 권장
- •스피커 지향성: 비지향성(Omnidirectional) 대신 지향성 스피커로 마이크 방향 에너지 최소화
- •HVAC 소음: 냉난방기 소음이 35dB 이하가 되도록 덕트 방진 처리 필수
- •바닥재: 카펫 또는 코르크 타일로 저역 반사 흡수
음질과 AI 음성인식 정확도의 상관관계
STT(음성인식) 엔진의 정확도는 입력 음질의 SNR(Signal-to-Noise Ratio, 신호 대 잡음비)에 직접적으로 비례합니다. 내부 연구 및 산업 보고서에 따르면, SNR 25dB 이상의 깨끗한 환경에서는 최신 STT 모델이 95% 이상의 단어 인식 정확도(WER 5% 이하)를 달성합니다. 그러나 SNR이 10dB 이하로 떨어지면 정확도가 80% 이하로 급격히 저하됩니다. 에코와 하울링은 SNR을 순간적으로 0dB 이하까지 낮출 수 있으므로, AEC 없는 환경에서는 AI 회의록의 품질이 현저히 낮아집니다. 결국 하드웨어 음향 설계, 소프트웨어 AEC, 그리고 STT 모델의 노이즈 내성(Noise Robustness)이 모두 결합되어야 실용적인 수준의 회의록이 생성됩니다.
플러스랩스의 음향 최적화 프로세스
플러스랩스는 회의실 구축 시 3단계 음향 최적화 프로세스를 적용합니다. 1단계 현장 측정에서는 EASERA 또는 Room EQ Wizard를 이용하여 RT60, 주파수 응답, 배경 소음 스펙트럼을 측정합니다. 2단계 DSP 설정에서는 측정 데이터를 기반으로 마이크 어레이의 빔포밍 방향, AEC 필터 길이, 노이즈 서프레션(Noise Suppression) 강도를 최적화합니다. 8채널 빔포밍 마이크는 각 화자의 방향에서 오는 신호를 선택적으로 강화하고, 반대 방향의 신호(스피커 출력 포함)를 자연스럽게 억제합니다. 3단계 검증에서는 실제 회의 상황을 재현하여 에코 억제량(ERLE: Echo Return Loss Enhancement, 목표 35dB 이상)과 STT 정확도를 측정하고, 기준 미달 시 DSP 파라미터를 재조정합니다.
깨끗한 음질은 단순한 편의가 아니라 AI 음성인식 정확도와 직결됩니다. 플러스랩스의 음향 최적화 프로세스를 통해 구축된 회의실에서는 에코와 하울링 없이 안정적으로 95% 이상의 STT 정확도를 유지합니다. 음향 설계에 대한 투자가 AI 회의록의 완성도를 결정합니다.