Dograh, Retell o VAPI: cuál elegir para tu agente de voz en 2026
Este artículo es el primero de una serie sobre Dograh en producción. El siguiente cubrirá lo que puede salir mal, y saldrá mal, porque en esto siempre hay algo.
Por qué estoy comparando estas tres plataformas
Me llega un proyecto. Agente de voz para un cliente. Y lo primero que me pregunto no es qué LLM usar, sino dónde van a acabar las conversaciones de sus clientes. Ya había trabajado con VAPI y con Retell AI. De hecho, ya escribí sobre la migración de VAPI a Retell y todo lo que eso arrastró en la arquitectura. Pero para este proyecto el cliente maneja datos sensibles de sus propios clientes. Las conversaciones no podían pasar por servidores de terceros. Fin de la discusión. Eso me llevó a mirar Dograh. Esta es la comparativa que me hice. Los números son reales. Todavía estoy en fase de pruebas, así que hay cosas que aún no sé, y las que sé, las cuento.
Las tres plataformas en 30 segundos
VAPI es la más flexible. Arquitectura modular: tú eliges el STT, el TTS, el LLM y la telefonía, y VAPI lo orquesta. Más de 1.000 millones de llamadas procesadas, 2,5 millones de agentes desplegados. La propuesta es sólida. El problema es que el precio que ves en la web y lo que pagas al final del mes son cosas muy distintas, y eso toca la moral. Retell AI es la opción opinionada. Stack completo, latencia optimizada (unos 600 ms de media, entre los más rápidos del sector), onboarding rápido. Si alguien me pregunta qué usar para empezar, le digo Retell sin pensarlo. Para un proyecto con requisitos de privacidad estrictos, la respuesta cambia. Dograh es open source y autoalojable. La plataforma que propone: “instala esto en tu infraestructura, conecta tus propias claves de proveedor, y no te cobramos por minuto de plataforma.” Sub-500 ms de latencia declarada, más de 30 idiomas, observabilidad integrada con Langfuse, y flujos multi-agente con retención de contexto de hasta 45 minutos. Si te lo alojas tú, es gratis.
Comparativa de precios y modelo de facturación
| Característica | VAPI | Retell AI | Dograh |
|---|---|---|---|
| Fee de plataforma | $0,05/min | $0,07+/min | $0 (self-hosted) |
| STT incluido | No | Sí | BYOK |
| TTS incluido | No | Parcialmente | BYOK |
| LLM incluido | No | Parcialmente | BYOK |
| Telefonía incluida | No | Sí | BYOK |
| Billing pulse | 60 segundos | 60 segundos | 15 segundos (Pro) |
| Self-hosting | No | No | Sí |
| Concurrencia extra | $10/línea/mes | N/A | Sin límite (self-hosted) |
| Tier gratuito | 60 minutos | No | Ilimitado (self-hosted) |
| VAPI tiene el fee de plataforma más bajo: $0,05/min. Lo que no dicen tan claro es que ese precio solo cubre la plataforma. El STT, el TTS (ElevenLabs u otro), el LLM (GPT-4o o equivalente) y la telefonía van aparte. Cuando sumas todo, el coste real se va a $0,30-0,33/min. Es más de seis veces el fee de plataforma. | |||
| Retell es más transparente: $0,07+/min incluye más componentes. El total estimado ronda $0,10/min. Más caro que el banner de VAPI, bastante más barato que la realidad de VAPI. | |||
| El billing pulse de Dograh Pro también importa: 15 segundos en lugar de 60. Una llamada de 16 segundos en una plataforma con pulso de 60 s te factura un minuto completo. Con pulso de 15 s, pagas 30 segundos. A volumen, eso se nota. |
El coste real a escala
| Volumen mensual | VAPI (coste total real) | Retell AI | Dograh self-hosted |
|---|---|---|---|
| 10.000 min | ±$3.000 | ±$1.000 | ±$300 (solo infra) |
| 50.000 min | ±$15.000 | ±$5.000 | ±$1.500 (solo infra) |
| 100.000 min | ±$30.000 | ±$10.000 | ±$3.000 (solo infra) |
| La infraestructura raw (STT + TTS + LLM + telefonía pagando directamente a cada proveedor) cuesta aproximadamente $0,03/min a escala. Las plataformas gestionadas cobran entre $0,07 y $0,15/min. A 100.000 minutos al mes, esa diferencia son $12.000 mensuales. Doce mil dólares al mes de lo que alguien llama “plataforma.” Yo lo llamo pagar por el dashboard. | |||
| Dicho esto: el coste de Dograh self-hosted no es solo la factura del servidor. Hay tiempo de ingeniería para mantener la infraestructura, gestionar actualizaciones y depurar problemas. Eso tiene un valor real. A bajos volúmenes, el ahorro no justifica la complejidad. A partir de cierto umbral, la ecuación se invierte, y mucho. |
Privacidad y control de datos: la pregunta que casi nadie hace
Cuando usas VAPI o Retell, las conversaciones de tus usuarios pasan por sus servidores. No porque sean malas personas, sino porque ese es el negocio de cualquier SaaS. Ambas tienen certificaciones de compliance (SOC 2, HIPAA y GDPR en el caso de Retell) y sus políticas de datos son claras. Pero la realidad es que un tercero está procesando y potencialmente almacenando las llamadas. Para muchos proyectos eso no importa. Para otros (clínicas, despachos de abogados, empresas con datos financieros sensibles, negocios donde los clientes cuentan cosas que no quieren que salgan de casa) puede ser un bloqueante real, o como mínimo, una conversación incómoda con el DPO que nadie quiere tener. Con Dograh self-hosted:
- Las conversaciones nunca salen de tu infraestructura.
- GDPR e HIPAA son nativos por arquitectura, no por contrato con un tercero.
- Tienes control total sobre logs, retención y acceso.
- Puedes conectar cualquier proveedor, incluidos modelos de lenguaje corriendo en local. Este era el requisito. No había manera de que las conversaciones pasaran por servidores externos. Dograh lo resolvía de raíz.
Mi primera impresión de Dograh
Llevo unas semanas, así que sería mentira hacer un análisis definitivo. Lo que puedo decir es esto. El setup inicial es rápido para ser open source: menos de 10 minutos para tener algo funcionando. La observabilidad con Langfuse es un diferenciador real. Cuando algo falla en una llamada (y falla), poder ver exactamente qué pasó sin depender del dashboard de un servicio cerrado vale mucho. Mucho más de lo que parece hasta que lo necesitas de verdad. Lo que todavía no sé: cómo se comporta bajo carga real. Cuál es la latencia con el stack concreto que estoy usando. Cómo responde el soporte cuando algo se rompe a las 2 de la mañana. Cómo son las actualizaciones en un entorno donde no te puedes permitir interrupciones. Esas cosas las sabré en el siguiente artículo, y no tengo dudas de que habrá material. El tutorial paso a paso lo escribiré cuando tenga suficiente experiencia para hacerlo bien. No antes.
Cuál elegir
Sin rodeos:
- ¿Empezando o volumen bajo? Retell. Sin pensarlo. Rápido, optimizado y no te complica la vida.
- ¿Equipo técnico y quieres control total de cada componente? VAPI. Pero calcula el coste real antes de comprometerte, porque la diferencia entre el fee de plataforma y la factura final da un susto.
- ¿Datos sensibles, volumen en crecimiento, o las conversaciones no pueden salir de tu infraestructura? Dograh. El coste operativo existe, pero la alternativa (poner conversaciones de clientes en manos de un tercero) puede no ser una opción.
Preguntas frecuentes
¿Dograh es realmente gratuito?
El tier open source es gratuito y sin límite de uso si te lo alojas tú. Pagas solo los costes de infraestructura y los proveedores que conectes: LLM, TTS, STT. El plan Pro tiene precio personalizado e incluye hosting gestionado, SLA y soporte dedicado.
¿Cuál es la latencia real de estas plataformas?
Retell declara unos 600 ms de media, que en conversación se percibe como natural. Dograh declara sub-500 ms, aunque ese número depende mucho del stack y de dónde alojes la infraestructura. VAPI varía según los proveedores que configures. En producción real con carga, los números siempre son distintos a los de los demos. Lo comprobaré en el siguiente artículo.
¿Puedo usar modelos de lenguaje locales con Dograh?
Sí. BYOK significa que conectas lo que quieras, incluidos modelos corriendo en tu propia infraestructura. En proyectos con alta sensibilidad donde ni siquiera quieres que el LLM sea externo, esto cambia bastante la ecuación.
¿Retell y VAPI cumplen con el RGPD?
Tienen certificaciones y DPAs disponibles. El cumplimiento en la práctica depende de cómo configures el tratamiento de datos y de qué información manejes. Dograh self-hosted elimina la variable del subencargado externo, pero no te exime de cumplir el RGPD en tu propia infraestructura: ese trabajo sigue siendo tuyo.
Compártelo si te ha resultado útil. Si tu empresa necesita implementar agentes de voz, hablamos. Y… ¡hasta aquí por hoy!
Artículos relacionados
De VAPI a Retell: la migración que se llevó media arquitectura
Cuento cómo integré VAPI en marcosramirez.dev para tener un agente de voz en la web, por qué migré a Retell cinco días después, y cómo esa decisión arrastró consigo un cambio de arquitectura completo: de Cloudflare Pages a Cloudflare Workers, pasando por SSR, rutas de API y gestión segura de tokens. La historia de cómo una sola dependencia puede cambiar toda tu infraestructura.
Agent Skills: el estándar que enseña a tus agentes cómo trabajar
Agent Skills es el formato abierto que permite a cualquier agente de Inteligencia Artificial cargar conocimiento especializado bajo demanda: desde cómo escribir en tu blog hasta cómo cerrar un artículo con el CTA correcto. Un skill es simplemente una carpeta con un fichero SKILL.md, pero la idea detrás es poderosa: separar el conocimiento del agente de la herramienta que lo ejecuta. Adoptado por más de treinta herramientas —incluyendo Claude Code, Cursor, GitHub Copilot y Gemini CLI— está convirtiéndose en el estándar de facto. En este post explico cómo funciona, presento el ecosistema en agentskills.io y el directorio de skills.sh, y cuento cómo llevo meses usándolo en este blog sin saber que tenía nombre. Incluyo ejemplos reales del sistema de skills del blog: desde subskills jerárquicos de copywriting hasta un skill de captación de clientes sin una sola línea de código.
OpenRouter: 500 modelos de Inteligencia Artificial en una API
OpenRouter es un gateway unificado con más de 500 modelos de Inteligencia Artificial de docenas de proveedores mediante una sola API key y endpoint. Incluye casi 30 modelos gratuitos ideales para desarrollo, sin tarjeta de crédito. Su sistema de fallback automático cambia de modelo si uno falla, y su compatibilidad con OpenAI permite integrarlo fácilmente en herramientas como OpenCode y OpenClaw.