본문으로 바로가기

기술 아키텍처

따뜻한 통화
뒤의 인프라

독자적 음성 AI 파이프라인과 실시간 데이터베이스가 Sub-500ms 엔드투엔드 레이턴시로 맞물려, 어르신이 느끼는 것은 그저 끊김 없이 자연스러운 한 통의 대화입니다.

Sub-500ms 레이턴시Co-located 모델 아키텍처99.9% 서비스 가용성
편안하게 전화로 안부를 나누는 어르신 — 따뜻한 통화 뒤의 인프라

파이프라인 사양

수직 통합 음성 AI 스택이 실제 운영에서 도달하는 레이턴시와 가용성 지표입니다. 언어·음성 수는 파이프라인에 통합된 음성 제공업체의 커버리지입니다.

  • Sub-500ms 엔드투엔드 레이턴시

    음성 캡처부터 응답 출력까지, 대화·분석·알림이 동시에 작동하면서도 일관되게 500ms 미만의 엔드투엔드 레이턴시를 유지합니다. 어르신은 끊김 없는 대화만 경험합니다.

  • 90개 이상 STT 지원 언어 (제공업체)

    파이프라인에 통합된 음성 인식 제공업체가 90개 이상의 언어를 ~80ms 레이턴시로 처리합니다. 예측적 전사로 발화가 끝나기 전에 텍스트를 생성합니다.

  • 5,000개 이상 TTS 음성 (제공업체)

    파이프라인에 통합된 음성 합성 제공업체가 5,000개가 넘는 다국어 음성을 ~75ms 추론 레이턴시로 합성합니다. 스트리밍 응답으로 첫 오디오 바이트를 즉시 전달합니다.

  • 99.9% 서비스 가용성

    99.9% 가용성 SLA로 운영되는 인프라가 매일의 안부 전화를 빠짐없이 책임집니다. 실시간 모니터링과 자동 폴백으로 안정성을 보장합니다.

음성이 응답이 되기까지, 세 단계

음성 인식·합성·턴 테이킹·발화 감지 모델이 동일 인프라에서 실행되는 Co-located 모델 아키텍처가 이 흐름을 한 박자로 묶습니다.

  1. 1

    듣기 — 캡처 & 인식

    암호화된 실시간 오디오를 캡처하고, 독자적 VAD가 발화 시작·종료를 감지해 ~80ms STT가 발화 중에 전사합니다.

  2. 2

    이해 — 컨텍스트 & 추론

    실시간 DB에서 대화 이력·무드·복약 정보를 <20ms에 주입하고, 스트리밍 LLM이 첫 토큰을 ~150ms 안에 생성합니다.

  3. 3

    응답 — 합성 & 출력

    ~75ms TTS가 음성을 합성하고 실시간으로 스트리밍해, 전체 흐름이 일관되게 Sub-500ms 안에 완결됩니다.

무엇이 다른가요?

여러 API를 엮은 일반적인 음성 봇이나 구형 ARS와 달리, WelVoice는 음성 스택과 데이터를 한 인프라에 통합했습니다.

무엇이 다른가요?
WelVoice일반 음성 봇구형 ARS
Sub-500ms 엔드투엔드 레이턴시지원미지원미지원
Co-located 모델 아키텍처지원미지원미지원
실시간 DB 컨텍스트 주입지원미지원미지원
독자적 VAD·턴 테이킹 모델지원미지원미지원
90개+ 언어 실시간 음성 인식지원지원미지원
99.9% 가용성 SLA지원미지원미지원

인프라는 우리가, 안부는 어르신께

복잡한 기술은 보이지 않게. 무료 플랜으로 Sub-500ms AI 음성 대화를 직접 경험해 보세요.