Pipecat Voice Dashboard

ðŸ”Š Audio SIP (Zadarma Bridge)

Controla cÃ³mo suena el bot en las llamadas telefÃ³nicas.

Volumen de salida (TTS â†’ telÃ©fono)

100%

100% = original Â· >150% puede saturar Â· <50% puede ser inaudible en la lÃnea SIPVoz del bot (Kokoro TTS)Idioma de reconocimiento (Whisper STT)

ðŸ”¬ DSP â€” Downsampling 24kHz â†’ 8kHz

ParÃ¡metros del filtro anti-aliasing que procesa el audio TTS antes de enviarlo por RTP. Cambia en caliente â€” afecta a la prÃ³xima frase que genere el bot.

Tipo de ventana FIR

Balance Ã³ptimo. Buen rechazo de aliasing con suavidad natural.

Taps del kernel FIRâ€” mÃ¡s taps = menos aliasing, algo mÃ¡s de CPU

Balance Ã³ptimo

Tasa de salida asumida de Kokoroâ€” si suena muy agudo/grave, prueba otro valor

Nativo Kokoro-82M (recomendado) â€” Ratio de decimaciÃ³n: 3.00x (entero â†’ FIR activo)

Config activa: 24000Hz â†’ FIR(hanning, 7 taps) â†’ decimate(3x) â†’ 8000Hz Î¼-law â†’ RTP@20ms

ðŸ§ Modelo LLM (Cerebro Conversacional)

Genera la respuesta del agente. El modelo se aplica en la prÃ³xima llamada.

Modelo

ðŸŽ™ï¸ STT â€” Faster Whisper (local)

El reconocimiento de voz corre localmente en el servidor Docker. Modelo base.

Motor

Faster-Whisper (local, open source)

Modelo

Whisper Base (~150MB)

Latencia

~300-600ms por frase

Idioma activo

EspaÃ±ol

Modelos y Audio

ðŸ”Š Audio SIP (Zadarma Bridge)

ðŸ”¬ DSP â€” Downsampling 24kHz â†’ 8kHz

ðŸ§ Modelo LLM (Cerebro Conversacional)

ðŸŽ™ï¸ STT â€” Faster Whisper (local)

ðŸŽ™ï¸ STT â€” Faster Whisper (local)