일반 전화선(PSTN) 위에서 동작하는 실시간 음성 통역 시스템. 듀얼 세션 + 에코 게이팅 아키텍처로 평균 557ms 지연, 148건 실통화 0건 에코 루프를 달성했고 ACL 2026 System Demonstrations에 채택됐습니다.
개요
부동산 중개소, 병원, 동네 수리점 같은 곳은 아직도 전화가 유일한 창구입니다. 온라인 예약이 안 되는 곳에 뭔가를 문의하려면 결국 전화를 걸어야 하는데, 국내 거주 외국인(220만 명)에게는 언어 장벽이, 통화 불안을 느끼는 세대에게는 심리적 장벽이, 청각·언어 장애인에게는 물리적 장벽이 있습니다. 기존 음성 번역 기술은 양쪽 다 앱을 깔아야 동작하는 구조라 이 문제를 풀 수 없었습니다. 저희가 목표로 잡은 건 수신자가 아무것도 설치하지 않아도 일반 전화를 받기만 하면 양방향 통역이 바로 동작하는 시스템이었고, 그러려면 통화 매개체를 PSTN(SIP)으로 가져가면서 양쪽 오디오를 실시간으로 처리해야 했습니다.
도전
핵심 문제는 세 가지였습니다. 첫째, 오디오 환경 격차입니다. 일반 앱(16~24kHz PCM16 + 클라이언트 AEC)과 달리 PSTN은 G.711 μ-law 8kHz 협대역 코덱에 80~600ms 가변 지연이 깔립니다. 둘째, 에코 루프입니다. AI가 만든 TTS 음성이 PSTN을 타고 돌아와 다시 STT → 번역 → TTS로 입력되는데, 초기 테스트에서 10통 중 8통이 이 루프에 빠졌습니다. 셋째, VAD 실패입니다. OpenAI Server VAD는 깨끗한 광대역 입력을 가정해서 PSTN 잡음(RMS 50~200)을 "발화 중"으로 잡고 `speech_stopped` 이벤트가 15~72초 늦게 발화하거나 아예 안 옵니다.
접근
"방향별로 독립된 OpenAI Realtime 세션을 두 개 병렬로 돌리고, 두 세션 사이는 소프트웨어 전용 에코 게이팅 파이프라인으로 분리하면" 에코 루프와 저지연을 동시에 잡을 수 있다고 봤습니다.
구조
Dual-Session Echo Gating 아키텍처를 채택했습니다. 방향별 Realtime 세션 2개를 분리해서 돌리고, 두 세션 사이에 소프트웨어 에코 게이트를 두며, STT와 번역을 분리해 환각으로 인한 문장 추가를 차단했습니다.
- 듀얼 세션 — Session A(브라우저→전화) · Session B(전화→브라우저)가 각자 system prompt와 6턴 슬라이딩 컨텍스트를 독립 유지
- AudioRouter — Strategy 패턴으로 V2V / T2V / FullAgent 3 파이프라인에 이벤트 위임
- STT-Translation 분리 — Realtime API의 Whisper-1은 STT만 담당, 번역은 GPT-4o-mini(temperature=0)가 별도 처리 + context_prune_keep=0으로 환각 문장 추가 차단
실행
7단계 진화로 매 단계마다 깨지는 지점을 차례로 잡았습니다. 단일 세션은 에코를 못 잡았고, 단순 듀얼은 두 세션이 서로의 TTS를 듣고 무한 발화 루프에 빠졌습니다. 그 위에 (1) Echo Gate로 TTS 출력 시점에 자기 음성을 차단, (2) Energy Gate로 RMS 임계치 기반 PSTN 노이즈 필터링, (3) Silero VAD로 OpenAI Server VAD가 15~72초씩 지연되던 발화 종료 감지를 클라이언트 측에서 480ms 이내로 단축, (4) 세션 상태 공유 컨트롤러, (5) 발화권 우선순위 룰, (6) STT와 Translation 분리(Whisper-1 vs GPT-4o-mini), (7) 6-turn sliding context로 메모리 부담 통제까지 단계적으로 쌓아 운영 환경에서 종단 간 지연을 557ms까지 끌어내렸습니다.
결과 & 성과
실측 기준 평균 종단 간 지연 약 557ms, 148건의 실통화에서 0건의 에코 루프를 기록했습니다. 시스템 논문이 ACL 2026 System Demonstrations Track에 채택됐고, 수신자는 앱 설치 없이 일반 전화로 받기만 하면 양방향 통역이 동작하는 운영 단계에 도달했습니다. 대상 사용자는 국내 거주 외국인(2024년 기준 220만 명) · 재외 국민(280만 명) · 청각·언어 장애인(등록 39만 명) · 통화 회피 세대(MZ 약 40%)까지 포함합니다.
다른 프로젝트