기술 아키텍처
따뜻한 통화
뒤의 인프라
독자적 음성 AI 파이프라인과 실시간 데이터베이스가 Sub-500ms 엔드투엔드 레이턴시로 맞물려, 어르신이 느끼는 것은 그저 끊김 없이 자연스러운 한 통의 대화입니다.

파이프라인 사양
수직 통합 음성 AI 스택이 실제 운영에서 도달하는 레이턴시와 가용성 지표입니다. 언어·음성 수는 파이프라인에 통합된 음성 제공업체의 커버리지입니다.
Sub-500ms 엔드투엔드 레이턴시
음성 캡처부터 응답 출력까지, 대화·분석·알림이 동시에 작동하면서도 일관되게 500ms 미만의 엔드투엔드 레이턴시를 유지합니다. 어르신은 끊김 없는 대화만 경험합니다.
90개 이상 STT 지원 언어 (제공업체)
파이프라인에 통합된 음성 인식 제공업체가 90개 이상의 언어를 ~80ms 레이턴시로 처리합니다. 예측적 전사로 발화가 끝나기 전에 텍스트를 생성합니다.
5,000개 이상 TTS 음성 (제공업체)
파이프라인에 통합된 음성 합성 제공업체가 5,000개가 넘는 다국어 음성을 ~75ms 추론 레이턴시로 합성합니다. 스트리밍 응답으로 첫 오디오 바이트를 즉시 전달합니다.
99.9% 서비스 가용성
99.9% 가용성 SLA로 운영되는 인프라가 매일의 안부 전화를 빠짐없이 책임집니다. 실시간 모니터링과 자동 폴백으로 안정성을 보장합니다.
음성이 응답이 되기까지, 세 단계
음성 인식·합성·턴 테이킹·발화 감지 모델이 동일 인프라에서 실행되는 Co-located 모델 아키텍처가 이 흐름을 한 박자로 묶습니다.
- 1
듣기 — 캡처 & 인식
암호화된 실시간 오디오를 캡처하고, 독자적 VAD가 발화 시작·종료를 감지해 ~80ms STT가 발화 중에 전사합니다.
- 2
이해 — 컨텍스트 & 추론
실시간 DB에서 대화 이력·무드·복약 정보를 <20ms에 주입하고, 스트리밍 LLM이 첫 토큰을 ~150ms 안에 생성합니다.
- 3
응답 — 합성 & 출력
~75ms TTS가 음성을 합성하고 실시간으로 스트리밍해, 전체 흐름이 일관되게 Sub-500ms 안에 완결됩니다.
무엇이 다른가요?
여러 API를 엮은 일반적인 음성 봇이나 구형 ARS와 달리, WelVoice는 음성 스택과 데이터를 한 인프라에 통합했습니다.
| WelVoice | 일반 음성 봇 | 구형 ARS | |
|---|---|---|---|
| Sub-500ms 엔드투엔드 레이턴시 | 지원 | 미지원 | 미지원 |
| Co-located 모델 아키텍처 | 지원 | 미지원 | 미지원 |
| 실시간 DB 컨텍스트 주입 | 지원 | 미지원 | 미지원 |
| 독자적 VAD·턴 테이킹 모델 | 지원 | 미지원 | 미지원 |
| 90개+ 언어 실시간 음성 인식 | 지원 | 지원 | 미지원 |
| 99.9% 가용성 SLA | 지원 | 미지원 | 미지원 |