Cómo crear un bot de voz con Rasa y Cartesia: guía práctica para empresas en México
La inteligencia artificial conversacional ha evolucionado más allá del chat tradicional. Con la llegada de Rasa 3.11 y su capacidad nativa para manejar voz en tiempo real, ahora es posible crear bot de voz que ofrecen una experiencia más natural, ágil y cercana.
En esta guía, te mostramos cómo combinar Rasa con Deepgram (para reconocimiento de voz) y Cartesia (para síntesis de voz), y así construir un asistente virtual por voz listo para operar en contextos empresariales en México.
¿Por qué esta tecnología es clave para el mercado mexicano?
La combinación de Rasa 3.11 con Cartesia representa un salto importante para las empresas que buscan mejorar la experiencia conversacional de sus usuarios. Muchos bots de voz tradicionales aún presentan retrasos o respuestas artificiales. Cartesia, en cambio, ofrece una generación de voz con latencia ultrabaja y entonación natural gracias a sus modelos neuronales avanzados.
Esto, junto con la capacidad de Rasa para manejar audio en tiempo real sin necesidad de software adicional, permite construir asistentes virtuales por voz realmente eficientes y adaptados al mercado mexicano.

Beneficios de la integración nativa en Rasa
Con Rasa 3.11 puedes diseñar experiencias por voz robustas y escalables:
- Manejo de audio sin herramientas intermedias
- Procesamiento del contexto de la conversación sin interrupciones
- Respuestas inmediatas que simulan la velocidad de una conversación humana
- Escalabilidad con el framework CALM (Conversational AI with Language Models)
Esta arquitectura es ideal para soluciones de atención al cliente, canales digitales o asistentes empresariales.
Arquitectura de un bot de voz moderno
Rasa utiliza el conector browser_audio para captar voz directamente desde el navegador del usuario. Esta señal se envía en tiempo real a los servicios de reconocimiento y síntesis de voz, manteniendo la continuidad de la conversación.
El uso del framework CALM asegura que los diálogos complejos se gestionen correctamente, lo que se traduce en una experiencia fluida, especialmente relevante para empresas en sectores como banca, seguros o servicios públicos en México.
Cómo preparar tu entorno de desarrollo
Antes de integrar la voz, es fundamental preparar tu entorno. Este ejemplo utiliza Python 3.10.10 y Rasa Pro 3.11.3. Aquí los pasos clave:
bash
uv venv
source .venv/bin/activate
uv pip install rasa-pro==3.11.3
No olvides registrar tu licencia de Rasa Pro:
bash
export RASA_PRO_LICENSE=TU_CLAVE_DE_LICENCIA
Verifica tu instalación:
bash
rasa --version
Iniciar un bot base en Rasa
Puedes partir desde un bot de ejemplo con:
bash
rasa init --template tutorial
Este contenido demo será suficiente para probar las capacidades de voz.
Configurar Deepgram y Cartesia
Estos son los dos servicios que se integran para habilitar la voz:
- Deepgram: reconocimiento automático del habla (ASR)
- Cartesia: conversión de texto a voz (TTS)
Una vez tengas tus claves de API, agrégalas como variables de entorno:
bash
export DEEPGRAM_API_KEY=TU_CLAVE
export CARTESIA_API_KEY=TU_CLAVE
Consulta la documentación oficial de Rasa para más opciones.
Integración de voz en el bot
Agrega la siguiente configuración en el archivo credentials.yml:
yaml
browser_audio:
server_url: 0.0.0.0
asr:
name: deepgram
tts:
name: cartesia
Este setup activa el canal de audio desde el navegador, convierte voz en texto con Deepgram y responde con audio generado por Cartesia.
Ejecutar y probar tu bot de voz
Ahora solo debes entrenar y probar:
bash
rasa train
rasa inspect --voice
Desde el inspector podrás interactuar con tu bot por voz directamente, ideal para ajustar y validar respuestas en tiempo real.
¿Qué sigue?
A partir de esta base, puedes:
- Cambiar voces y entonaciones según el perfil de usuario
- Diseñar diálogos más complejos y personalizados
- Afinar los tiempos de respuesta
- Incorporar validaciones y manejo de errores en voz
Este enfoque es especialmente útil para organizaciones en México que buscan digitalizar su atención al cliente o mejorar la accesibilidad de sus canales.
¿Quieres construir tu bot de voz con Rasa en México?
En 2Brains colaboramos estrechamente con RASA para implementar soluciones de IA conversacional en Latinoamérica. Nuestra experiencia en el mercado mexicano nos permite desarrollar asistentes virtuales por voz que se adaptan al lenguaje, las expectativas y los procesos locales.
Si estás en México y quieres transformar la manera en que tus usuarios interactúan con tu marca, llena nuestro formulario de contacto. Nuestro equipo puede ayudarte a diseñar un bot conversacional por voz alineado con tus objetivos de negocio
