STT

효율적인 회의를 위한 다화자 분리(Diarization) 기술의 현재와 미래

By AI사업부|2025-12-10

AI 회의록 시스템이 생성하는 텍스트에 "누가 발언했는가"라는 정보가 빠져 있다면, 그 회의록의 활용 가치는 크게 제한됩니다. "예산안을 수정하자"는 발언이 위원장의 지시인지, 일반 위원의 제안인지에 따라 안건의 무게와 처리 방식이 전혀 달라집니다. 이 문제를 해결하는 기술이 다화자 분리(Speaker Diarization)입니다. "이 음성 구간은 A가 말했고, 저 구간은 B가 말했다"를 자동으로 판별하여 화자 레이블(Speaker Label)을 텍스트에 부착하는 기술로, AI 회의록의 완성도를 결정하는 핵심 기술 중 하나입니다.

다화자 분리(Speaker Diarization)란?

다화자 분리는 크게 두 가지 질문에 답하는 기술입니다. 첫째, "언제 화자가 바뀌는가?(Speaker Change Detection)", 둘째, "각 구간이 어떤 화자에 해당하는가?(Speaker Identification)". 이 두 단계를 합쳐 "누가 언제 말했는가(Who spoke when)"를 결정합니다. 단순 STT는 음성을 텍스트로 변환할 뿐이지만, 다화자 분리가 결합되면 다음과 같은 구조화된 회의록이 생성됩니다. 예를 들어 "홍길동 위원 (10:05~10:07): 예산안에 대해 재검토가 필요합니다. 다음 회기까지 세부 항목을 재산정하여 보고해 주시기 바랍니다." 같은 형태로, 발언자와 발언 시간이 명확하게 기록된 회의록을 자동 생성할 수 있습니다.

다화자 분리 파이프라인 — 오디오 입력에서 화자별 텍스트 출력까지

화자 분리의 핵심 알고리즘

다화자 분리 파이프라인은 여러 단계의 알고리즘으로 구성됩니다. 첫 번째 단계인 VAD(Voice Activity Detection)는 음성 구간과 비음성(묵음, 배경 소음) 구간을 구분합니다. WebRTC VAD, Silero VAD 등이 널리 사용되며, 에너지 기반 방법과 딥러닝 기반 방법이 혼합 적용됩니다. 두 번째 단계인 특징 추출에서는 각 음성 프레임에서 MFCC(Mel-Frequency Cepstral Coefficients), i-vector, x-vector, 또는 ECAPA-TDNN 기반의 화자 임베딩(Speaker Embedding)을 추출합니다. 이 임베딩은 화자의 성문(Voiceprint) 특성을 고차원 벡터로 압축 표현합니다. 세 번째 단계인 클러스터링에서는 추출된 화자 임베딩을 Agglomerative Hierarchical Clustering(AHC) 또는 Spectral Clustering으로 그룹화하여 화자 레이블을 할당합니다.

현장에서 직면하는 4가지 도전 과제

•중첩 발화(Overlapping Speech): 두 명 이상이 동시에 말할 때 각 화자를 분리하기 어려움. 현재 기술로는 중첩 구간의 정확도가 단독 발화 대비 30~40% 낮음
•짧은 발화(Short Utterance): "네", "맞습니다", "좋습니다" 같은 단음절·단어 응답은 화자 임베딩 추출에 충분한 음성 정보가 없어 판별 오류율이 높음
•유사 음색(Similar Voice): 같은 성별, 비슷한 연령대의 참석자는 화자 임베딩 간 거리가 좁아 클러스터링 경계가 불명확해짐
•잡음 환경(Noisy Environment): 에어컨 소음, 의자 끄는 소리, 키보드 타이핑 등 배경 소음이 화자 임베딩의 품질을 저하시켜 전체 파이프라인 정확도를 감소시킴

다수 참석자 회의 — 다수의 참석자가 있는 회의일수록 화자 분리 기술이 중요합니다

플러스랩스의 화자 분리 고도화 전략

플러스랩스는 알고리즘 개선과 하드웨어 활용을 결합하여 화자 분리 정확도를 높입니다. 가장 효과적인 방법은 8채널 빔포밍 마이크 어레이의 방향 정보를 활용하는 것입니다. 빔포밍은 특정 방향에서 오는 음성을 선택적으로 수음하는 기술로, 회의실 좌석 배치 정보와 결합하면 "이 방향에서 오는 음성 = B 위원"이라는 강력한 사전 정보(Prior Information)를 화자 분리 알고리즘에 제공할 수 있습니다. 이를 통해 음향 특성만으로 판별하기 어려운 유사 음색 화자도 좌석 방향으로 구분하는 하이브리드 접근이 가능합니다.

8채널 빔포밍 마이크 배열 — 방향별 음성 분리로 화자 특정 정확도 향상

•화자 사전 등록: 회의 시작 전 각 참석자의 음성 샘플(10~30초)을 등록하여 기준 임베딩 생성, 분리 정확도 10~15%p 향상
•적응형 임계값: 회의 진행 중 실시간으로 화자 임베딩을 업데이트하여 장시간 회의에서의 드리프트(Drift) 방지
•좌석 배치 연동: 좌석 배치 도면과 마이크 채널 맵핑 정보를 시스템에 사전 입력하여 공간 정보 활용
•후처리 교정: 회의 종료 후 전체 음성을 재분석하여 실시간 처리 오류를 수정하는 오프라인 검증 모드 제공

화자 분리 정확도 현황과 미래

현재 최고 수준의 화자 분리 기술은 통제된 환경(전용 마이크, 3~8명, 낮은 배경 소음)에서 DER(Diarization Error Rate) 5~10%, 즉 90~95%의 정확도를 달성합니다. 플러스랩스의 실제 납품 환경 기준으로는 전용 빔포밍 마이크와 화자 사전 등록을 결합했을 때 DER 8% 이내(화자 분리 정확도 92% 이상)를 안정적으로 유지합니다. 앞으로의 기술 발전 방향은 크게 세 가지입니다. 첫째, 엔드투엔드(End-to-End) 다화자 분리·인식 통합 모델로 파이프라인 오류 누적을 줄이는 것, 둘째, 중첩 발화 처리를 위한 Permutation Invariant Training(PIT) 기반 음원 분리 기술 고도화, 셋째, 소형 엣지 디바이스에서도 실시간 처리가 가능한 경량화 모델 개발입니다. 5년 내에 일반 환경에서도 DER 3% 이하 달성이 목표입니다.

"누가 무슨 말을 했는가"를 정확히 기록하는 것이 진정한 AI 회의록의 완성입니다. 플러스랩스는 화자 분리 알고리즘, 빔포밍 하드웨어, 그리고 화자 사전 등록 시스템의 삼각 결합으로 실제 현장에서 검증된 고정확도 화자 분리를 제공합니다. 회의 참석자 모두의 발언이 정확하게 귀속된 회의록은 조직의 지식 자산이자 의사결정의 신뢰할 수 있는 근거가 됩니다.

목록으로