Marcos Ramírez BETA
Modelo Gemini 3.5 Flash de Google sobre interfaz de agentes de voz

Gemini 3.5 Flash en el I/O 2026: ¿merece la pena el cambio?

· ⏱ 8+ min lectura

Ayer, en el Google I/O 2026, Google DeepMind anunció Gemini 3.5 Flash. Disponible desde el mismo día del anuncio en la Gemini API y en Google AI Studio.

Llevo meses usando Gemini 3.0 Flash como modelo base en agentes de voz. No porque sea el más inteligente, que no lo es, sino porque para ese caso de uso específico es prácticamente imbatible: latencia baja, precio ridículo y sigue instrucciones con una fidelidad que modelos más grandes y caros no siempre consiguen. Cuando vi el anuncio de 3.5, lo primero que pensé fue “a ver qué han tocado y cuánto me va a costar”.

Spoiler: han tocado bastante, pero hay un dato de precio que hay que mirar bien antes de asumir que es un drop-in replacement.

Qué es Gemini 3.5 Flash y qué promete

El modelo entra en la serie Flash con una propuesta clara: rendimiento de modelo frontier a precio y velocidad de Flash. Google dice que supera a Gemini 3.1 Pro en benchmarks de coding, agentic y comprensión multimodal. Eso no es poca cosa, porque 3.1 Pro era el modelo grande de la generación anterior.

Los benchmarks publicados en el blog de Google Cloud para el Google I/O 2026:

BenchmarkResultado
Terminal-Bench 2.1 (coding agéntico)76,2%
MCP Atlas (flujos multi-paso)83,6%
Finance Agent v257,9%
CharXiv (comprensión multimodal)84,2%

Aparte de los números en papel, hay un dato de rendimiento que me parece más relevante para el día a día: 279,5 tokens por segundo de output, lo que lo coloca segundo de 147 modelos evaluados en Artificial Analysis. La mediana del mercado está en ±63 t/s. Osea que 3.5 Flash va cuatro veces más rápido que el modelo típico del mercado, y según Google, cuatro veces más rápido que otros modelos frontier.

Para agentes de voz, donde cada milisegundo de latencia percibida importa, ese número es muy relevante.

El cambio que nadie destaca en el anuncio: el precio

Google ha presentado 3.5 Flash como el modelo rápido y asequible de la nueva generación, y lo es, pero hay que ponerlo en contexto porque la comparación justa no es con GPT-4o o Claude Opus, sino con 3.0 Flash, que era su predecesor directo.

ModeloInput (por 1M tokens)Output (por 1M tokens)
Gemini 3.0 Flash$0,50 (texto/imagen/vídeo)$3,00
Gemini 3.5 Flash$1,50$9,00

Tres veces más caro en input. Tres veces más caro en output.

Esto no es necesariamente un problema, porque si el modelo hace el mismo trabajo con un 72% menos de tokens (un dato que menciona Armadin en su análisis de uso real), la factura final puede incluso bajar. Pero no puedes asumir que el precio es similar sin hacer el cálculo con tus propios datos de uso.

Ojo, sigue siendo barato en términos absolutos comparado con modelos frontier de otras empresas. Con $1,50 por millón de tokens de input, 3.5 Flash está muy por debajo de lo que cobran los modelos grandes de OpenAI o Anthropic por capacidades similares o inferiores en ciertos benchmarks.

¿Y para agentes de voz específicamente?

Aquí es donde yo tengo más interés, y donde los datos públicos son menos precisos.

Los agentes de voz necesitan tres cosas por encima de todo: latencia baja, seguimiento de instrucciones fiable y coste controlado. La inteligencia del modelo importa, pero para tareas sencillas como responder preguntas de un FAQ, gestionar una reserva o calificar un lead, no necesitas un modelo que resuelva problemas de matemáticas olímpicas. Necesitas uno que no se invente cosas, que siga el guion y que responda antes de que el usuario se aburra.

Gemini 3.0 Flash cumplía esas tres cosas con nota. La pregunta es si 3.5 las cumple igual o mejor.

Velocidad: 279,5 t/s frente a los ±70 t/s típicos de 3.0 Flash es un salto real. En agentes de voz eso se traduce en respuestas más fluidas, menos silencio percibido mientras el modelo genera.

Seguimiento de instrucciones: Google destaca mejoras en tareas agénticas complejas y en flujos multi-paso. Para instrucciones simples y repetitivas, 3.0 Flash ya era muy bueno, pero si 3.5 reduce los casos de salto de instrucción en conversaciones largas, compensa.

Coste: Aquí hay que hacer números propios. Si tus agentes generan respuestas cortas y precisas, el impacto del precio triplicado puede ser menor de lo que parece. Si generan texto largo o hay muchos turnos de conversación por sesión, la factura sube.

Contexto: 1 millón de tokens de input y 64.000 de output. Para agentes de voz con contexto de conversación, sobra.

Un dato que me genera dudas: Artificial Analysis mide el tiempo hasta el primer token de 3.5 Flash en ±18,5 segundos, muy por encima de la mediana de 2,7 segundos. Eso es un número malo para voz. Hay que aclarar si ese dato corresponde al modo de razonamiento extendido o al modo base, porque si aplica al modo estándar, es un problema serio para tiempo real.

Mi lectura: si ese dato de TTFT es del modo razonamiento (el equivalente al “thinking” de otros modelos), no afecta al uso normal para agentes de voz, donde no usarías ese modo. Si aplica al modo base, tienes que medirlo en producción antes de migrar.

3.5 Flash vs 3.1 Pro: el cambio de jerarquía

Un detalle que me parece importante y que no estoy viendo destacado en la mayoría de análisis: Google dice que 3.5 Flash supera a 3.1 Pro. Eso invierte la jerarquía precio-calidad que había hasta ahora.

Antes, si necesitabas más calidad pagabas más y usabas Pro. Ahora, para muchos casos de uso, Flash da más calidad que el Pro anterior a menor precio. La generación 3.5 está reorganizando el mercado interno de Google de una forma que los desarrolladores que aún tienen configurado 3.1 Pro deberían revisar.

¿Qué haré yo?

Voy a probarlo en un entorno de prueba antes de migrar producción. El proceso será:

  1. Replicar los prompts actuales con 3.5 Flash
  2. Medir latencia real en el primer token (no benchmarks de paper, producción real)
  3. Comparar seguimiento de instrucciones en los casos problemáticos que tengo documentados con 3.0
  4. Calcular el coste real con mis volúmenes de tokens actuales

Si los resultados son positivos, migro. Si la latencia al primer token en modo base está por encima de 1,5 segundos, me quedo con 3.0 hasta que lo optimicen.

La buena noticia es que el model ID es gemini-3.5-flash sin sufijo de preview, lo que indica que Google lo considera estable y listo para producción desde el día uno.

El plan es tenerlo probado esta misma semana. Si los resultados son interesantes, lo cuento por aquí.

Preguntas frecuentes

¿Cuánto cuesta Gemini 3.5 Flash por millón de tokens?

1,50 $ por millón de tokens de input y 9,00 $ por millón de tokens de output, según la página oficial de precios de la Gemini API. Es tres veces más caro que Gemini 3.0 Flash, aunque Google apunta que el modelo es más eficiente en tokens y puede reducir el consumo total.

¿Es Gemini 3.5 Flash mejor que 3.0 Flash para agentes de voz?

En velocidad de output sí: 279,5 tokens por segundo frente a los ±70 de 3.0 Flash. Para tareas de agente la mejora en benchmarks es significativa. El punto crítico es la latencia al primer token en modo base, que hay que medir en producción antes de migrar: si supera 1,5 segundos, la experiencia conversacional se resiente.

¿Se puede usar Gemini 3.5 Flash en producción desde ya?

Sí. Google lo publicó el 19 de mayo de 2026 con el model ID gemini-3.5-flash sin sufijo de preview, lo que indica disponibilidad estable para producción. Está accesible desde Google AI Studio y la Gemini API.

¿Gemini 3.5 Flash supera a Gemini 3.1 Pro?

Según Google, sí: supera a 3.1 Pro en benchmarks de coding, agentic y comprensión multimodal, a menor precio y mayor velocidad. Esto invierte la jerarquía habitual, donde el modelo Pro era la opción de mayor calidad.

Fuentes


Compártelo si te ha resultado útil. ¿Usas Gemini Flash en algún proyecto? Cuéntame qué tal te está funcionando. Si tu empresa necesita implementar agentes de Inteligencia Artificial, hablamos. Y… esta semana salimos de dudas.

Artículos relacionados

Interfaz de ChatLLM mostrando múltiples modelos de Inteligencia Artificial conectados, representando el asistente unificado de Abacus.AI

ChatLLM de Abacus.AI: Inteligencia Artificial todo en uno

ChatLLM de Abacus.AI es un asistente profesional que te da acceso a más de 100 modelos de Inteligencia Artificial en una sola plataforma. Desde GPT-5.4 hasta Claude Opus 4.6, Gemini 3.1 Pro y Llama 4, todo en un mismo sitio por 10 $ al mes. Incluye generación de imágenes con Nano Banana Pro, vídeo con Sora 2, y DeepAgent para automatizar tareas complejas. Ideal para profesionales y equipos que necesitan acceso a la mejor Inteligencia Artificial sin pagar múltiples suscripciones por separado.

06:30 7 min Marcos RamírezLucía
Logo de OpenRouter con múltiples modelos de Inteligencia Artificial conectados

OpenRouter: 500 modelos de Inteligencia Artificial en una API

OpenRouter es un gateway unificado con más de 500 modelos de Inteligencia Artificial de docenas de proveedores mediante una sola API key y endpoint. Incluye casi 30 modelos gratuitos ideales para desarrollo, sin tarjeta de crédito. Su sistema de fallback automático cambia de modelo si uno falla, y su compatibilidad con OpenAI permite integrarlo fácilmente en herramientas como OpenCode y OpenClaw.

06:30 6 min Marcos RamírezLucía