Dograh, Retell o VAPI: cuál elegir para tu agente de voz en 2026

Este artículo es el primero de una serie sobre Dograh en producción. El siguiente cubrirá lo que puede salir mal, y saldrá mal, porque en esto siempre hay algo.

Por qué estoy comparando estas tres plataformas

Me llega un proyecto. Agente de voz para un cliente. Y lo primero que me pregunto no es qué LLM usar, sino dónde van a acabar las conversaciones de sus clientes. Ya había trabajado con VAPI y con Retell AI. De hecho, ya escribí sobre la migración de VAPI a Retell y todo lo que eso arrastró en la arquitectura. Pero para este proyecto el cliente maneja datos sensibles de sus propios clientes. Las conversaciones no podían pasar por servidores de terceros. Fin de la discusión. Eso me llevó a mirar Dograh. Esta es la comparativa que me hice. Los números son reales. Todavía estoy en fase de pruebas, así que hay cosas que aún no sé, y las que sé, las cuento.

Las tres plataformas en 30 segundos

VAPI es la más flexible. Arquitectura modular: tú eliges el STT, el TTS, el LLM y la telefonía, y VAPI lo orquesta. Más de 1.000 millones de llamadas procesadas, 2,5 millones de agentes desplegados. La propuesta es sólida. El problema es que el precio que ves en la web y lo que pagas al final del mes son cosas muy distintas, y eso toca la moral. Retell AI es la opción opinionada. Stack completo, latencia optimizada (unos 600 ms de media, entre los más rápidos del sector), onboarding rápido. Si alguien me pregunta qué usar para empezar, le digo Retell sin pensarlo. Para un proyecto con requisitos de privacidad estrictos, la respuesta cambia. Dograh es open source y autoalojable. La plataforma que propone: “instala esto en tu infraestructura, conecta tus propias claves de proveedor, y no te cobramos por minuto de plataforma.” Sub-500 ms de latencia declarada, más de 30 idiomas, observabilidad integrada con Langfuse, y flujos multi-agente con retención de contexto de hasta 45 minutos. Si te lo alojas tú, es gratis.

Comparativa de precios y modelo de facturación

Característica	VAPI	Retell AI	Dograh
Fee de plataforma	$0,05/min	$0,07+/min	$0 (self-hosted)
STT incluido	No	Sí	BYOK
TTS incluido	No	Parcialmente	BYOK
LLM incluido	No	Parcialmente	BYOK
Telefonía incluida	No	Sí	BYOK
Billing pulse	60 segundos	60 segundos	15 segundos (Pro)
Self-hosting	No	No	Sí
Concurrencia extra	$10/línea/mes	N/A	Sin límite (self-hosted)
Tier gratuito	60 minutos	No	Ilimitado (self-hosted)
VAPI tiene el fee de plataforma más bajo: $0,05/min. Lo que no dicen tan claro es que ese precio solo cubre la plataforma. El STT, el TTS (ElevenLabs u otro), el LLM (GPT-4o o equivalente) y la telefonía van aparte. Cuando sumas todo, el coste real se va a $0,30-0,33/min. Es más de seis veces el fee de plataforma.
Retell es más transparente: $0,07+/min incluye más componentes. El total estimado ronda $0,10/min. Más caro que el banner de VAPI, bastante más barato que la realidad de VAPI.
El billing pulse de Dograh Pro también importa: 15 segundos en lugar de 60. Una llamada de 16 segundos en una plataforma con pulso de 60 s te factura un minuto completo. Con pulso de 15 s, pagas 30 segundos. A volumen, eso se nota.

El coste real a escala

Volumen mensual	VAPI (coste total real)	Retell AI	Dograh self-hosted
10.000 min	±$3.000	±$1.000	±$300 (solo infra)
50.000 min	±$15.000	±$5.000	±$1.500 (solo infra)
100.000 min	±$30.000	±$10.000	±$3.000 (solo infra)
La infraestructura raw (STT + TTS + LLM + telefonía pagando directamente a cada proveedor) cuesta aproximadamente $0,03/min a escala. Las plataformas gestionadas cobran entre $0,07 y $0,15/min. A 100.000 minutos al mes, esa diferencia son $12.000 mensuales. Doce mil dólares al mes de lo que alguien llama “plataforma.” Yo lo llamo pagar por el dashboard.
Dicho esto: el coste de Dograh self-hosted no es solo la factura del servidor. Hay tiempo de ingeniería para mantener la infraestructura, gestionar actualizaciones y depurar problemas. Eso tiene un valor real. A bajos volúmenes, el ahorro no justifica la complejidad. A partir de cierto umbral, la ecuación se invierte, y mucho.

Privacidad y control de datos: la pregunta que casi nadie hace

Cuando usas VAPI o Retell, las conversaciones de tus usuarios pasan por sus servidores. No porque sean malas personas, sino porque ese es el negocio de cualquier SaaS. Ambas tienen certificaciones de compliance (SOC 2, HIPAA y GDPR en el caso de Retell) y sus políticas de datos son claras. Pero la realidad es que un tercero está procesando y potencialmente almacenando las llamadas. Para muchos proyectos eso no importa. Para otros (clínicas, despachos de abogados, empresas con datos financieros sensibles, negocios donde los clientes cuentan cosas que no quieren que salgan de casa) puede ser un bloqueante real, o como mínimo, una conversación incómoda con el DPO que nadie quiere tener. Con Dograh self-hosted:

Las conversaciones nunca salen de tu infraestructura.
GDPR e HIPAA son nativos por arquitectura, no por contrato con un tercero.
Tienes control total sobre logs, retención y acceso.
Puedes conectar cualquier proveedor, incluidos modelos de lenguaje corriendo en local. Este era el requisito. No había manera de que las conversaciones pasaran por servidores externos. Dograh lo resolvía de raíz.

Mi primera impresión de Dograh

Llevo unas semanas, así que sería mentira hacer un análisis definitivo. Lo que puedo decir es esto. El setup inicial es rápido para ser open source: menos de 10 minutos para tener algo funcionando. La observabilidad con Langfuse es un diferenciador real. Cuando algo falla en una llamada (y falla), poder ver exactamente qué pasó sin depender del dashboard de un servicio cerrado vale mucho. Mucho más de lo que parece hasta que lo necesitas de verdad. Lo que todavía no sé: cómo se comporta bajo carga real. Cuál es la latencia con el stack concreto que estoy usando. Cómo responde el soporte cuando algo se rompe a las 2 de la mañana. Cómo son las actualizaciones en un entorno donde no te puedes permitir interrupciones. Esas cosas las sabré en el siguiente artículo, y no tengo dudas de que habrá material. El tutorial paso a paso lo escribiré cuando tenga suficiente experiencia para hacerlo bien. No antes.

Cuál elegir

Sin rodeos:

¿Empezando o volumen bajo? Retell. Sin pensarlo. Rápido, optimizado y no te complica la vida.
¿Equipo técnico y quieres control total de cada componente? VAPI. Pero calcula el coste real antes de comprometerte, porque la diferencia entre el fee de plataforma y la factura final da un susto.
¿Datos sensibles, volumen en crecimiento, o las conversaciones no pueden salir de tu infraestructura? Dograh. El coste operativo existe, pero la alternativa (poner conversaciones de clientes en manos de un tercero) puede no ser una opción.

Preguntas frecuentes

¿Dograh es realmente gratuito?

El tier open source es gratuito y sin límite de uso si te lo alojas tú. Pagas solo los costes de infraestructura y los proveedores que conectes: LLM, TTS, STT. El plan Pro tiene precio personalizado e incluye hosting gestionado, SLA y soporte dedicado.

¿Cuál es la latencia real de estas plataformas?

Retell declara unos 600 ms de media, que en conversación se percibe como natural. Dograh declara sub-500 ms, aunque ese número depende mucho del stack y de dónde alojes la infraestructura. VAPI varía según los proveedores que configures. En producción real con carga, los números siempre son distintos a los de los demos. Lo comprobaré en el siguiente artículo.

¿Puedo usar modelos de lenguaje locales con Dograh?

Sí. BYOK significa que conectas lo que quieras, incluidos modelos corriendo en tu propia infraestructura. En proyectos con alta sensibilidad donde ni siquiera quieres que el LLM sea externo, esto cambia bastante la ecuación.

¿Retell y VAPI cumplen con el RGPD?

Tienen certificaciones y DPAs disponibles. El cumplimiento en la práctica depende de cómo configures el tratamiento de datos y de qué información manejes. Dograh self-hosted elimina la variable del subencargado externo, pero no te exime de cumplir el RGPD en tu propia infraestructura: ese trabajo sigue siendo tuyo.

Compártelo si te ha resultado útil. Si tu empresa necesita implementar agentes de voz, hablamos. Y… ¡hasta aquí por hoy!

Dograh, Retell o VAPI: cuál elegir para tu agente de voz en 2026

Por qué estoy comparando estas tres plataformas

Las tres plataformas en 30 segundos

Comparativa de precios y modelo de facturación

El coste real a escala

Privacidad y control de datos: la pregunta que casi nadie hace

Mi primera impresión de Dograh

Cuál elegir

Preguntas frecuentes

Artículos relacionados

De VAPI a Retell: la migración que se llevó media arquitectura

Agent Skills: el estándar que enseña a tus agentes cómo trabajar

OpenRouter: 500 modelos de Inteligencia Artificial en una API