Su prueba de concepto de Bedrock funcionó. El modelo era bueno, la API era limpia, lanzó una funcionalidad y a los usuarios les gusta.
Entonces llegó la factura.
Era más alta que la cifra aproximada que utilizó para dar luz verde al proyecto, y las líneas que puede ver en la factura no explican del todo por qué. No está solo, y la respuesta no es «Bedrock es caro».
La respuesta es que los precios de Bedrock tienen cinco o seis piezas móviles que no son evidentes hasta que se han pasado uno o dos ciclos de facturación.
Esta guía es la que un ingeniero sénior de AWS escribiría para otro ingeniero sénior de AWS. Analizamos cómo le cobra Bedrock realmente a mediados de 2026, dónde se esconden las sorpresas, las pocas palancas que más mueven la factura y los momentos en los que la respuesta es no usar Bedrock en absoluto.
Resumen: Precios de AWS Bedrock
|
Cómo funcionan realmente los precios de AWS Bedrock (también conocidos como precios de Amazon Bedrock)
Bedrock se basa en el uso. No hay un mínimo, ni suscripción, ni un nivel gratuito de AWS Bedrock en el que pueda confiar para producción (más información sobre la cuestión de la gratuidad más adelante). Usted paga por lo que usa, pero «lo que usa» tiene cinco categorías que vale la pena entender antes de pronosticar una factura.
Los precios de Amazon Bedrock (AWS y Amazon se refieren al mismo servicio indistintamente) se desglosan en cuatro modos principales, en términos sencillos:
- Bajo demanda: Pague por cada 1.000 tokens de entrada, por cada 1.000 tokens de salida, por imagen o por segundo de vídeo generado. Sin compromiso, sin mínimo, los precios varían según el modelo y la región de AWS. Aquí es donde empiezan la mayoría de los equipos.
- Rendimiento provisionado: Reserve capacidad dedicada para un modelo específico en unidades de modelo, facturadas por hora, utilice o no la capacidad. A esto es a lo que se cambia cuando el uso se vuelve predecible y elevado.
- Inferencia por lotes: Ejecute trabajos asíncronos con un 50 % de descuento sobre la tarifa Bajo demanda. Específicamente para Amazon Nova, AWS también ofrece un nivel Flex con el mismo 50 % de descuento, además de un nivel Priority a aproximadamente 1,75 veces el estándar para cargas de trabajo críticas que necesitan una asignación de computación preferente. Adecuado para trabajos en los que la latencia no importa (resúmenes nocturnos, clasificación de documentos, enriquecimiento periódico).
- Almacenamiento en caché de prompts: Almacene en caché el contexto de entrada repetido (prompts del sistema, fragmentos de conocimiento extensos, ejemplos de pocos disparos) y pague una fracción de la tarifa de tokens de entrada por la parte almacenada en caché. Ahorros de hasta el 90 % en la parte de entrada para aplicaciones con mucho contexto.
Los cuatro modos no son excluyentes. Un sistema de producción suele utilizar tres de ellos a la vez: –
- Bajo demanda para el tráfico en directo
- Por lotes para el trabajo nocturno
- Almacenamiento en caché de prompts en las partes estáticas de cada solicitud y, a veces,
- Rendimiento provisionado en el modelo que maneja la mayor parte de la carga.
Luego están los componentes que se asientan sobre el modelo y tienen sus propios precios: Bedrock Knowledge Bases para RAG, Bedrock Agents para flujos de trabajo de varios pasos, Bedrock Flows para orquestación visual y Bedrock Guardrails para moderación de contenido.
Cada uno tiene una línea separada en la factura.
Referencia rápida: los cuatro modos de precios de AWS Bedrock de un vistazo.
| Modo de precio | Cómo se paga | Ideal para | Descuento típico frente a Bajo demanda |
|---|---|---|---|
|
Bajo demanda |
Por cada 1.000 tokens de entrada, por cada 1.000 tokens de salida, por imagen, por segundo de vídeo | Uso modesto, puntual o impredecible; prototipos y producción temprana |
Base (sin descuento) |
|
Rendimiento provisionado |
Por hora por unidad de modelo (niveles sin compromiso, de 1 mes o de 6 meses) | Cargas de trabajo constantes, de gran volumen y predecibles; necesario para modelos ajustados o personalizados |
Variable; depende de la utilización y el compromiso |
|
Inferencia por lotes (o nivel Flex) |
Misma estructura por token, asíncrona | Resúmenes nocturnos, enriquecimiento periódico, clasificación, generación de incrustaciones |
50 % de descuento |
|
Almacenamiento en caché de prompts |
Tokens de entrada almacenados en caché facturados a una fracción de la tarifa estándar | Aplicaciones con grandes prefijos estáticos (prompts del sistema, ejemplos de pocos disparos, contexto de conocimiento fijo) |
Hasta un 90 % de descuento en la parte almacenada en caché |
Precios bajo demanda: el punto de partida predeterminado
Cuando llama por primera vez a un modelo de Bedrock a través de la API, se encuentra en el modo Bajo demanda. El modelo es compartido multiinquilino, usted paga por token y no hay compromiso.
La estructura es la misma en todos los modelos de texto: paga por separado por los tokens de entrada (su prompt, incluyendo cualquier contexto recuperado y el mensaje del sistema) y los tokens de salida (la respuesta del modelo). Los tokens de salida suelen costar de 3 a 5 veces más que los de entrada. Esta proporción es el dato más importante para la previsión de costes, ya que la mayoría de los equipos infravaloran el coste de salida cuando estiman el gasto.
Un ejemplo rápido utilizando Amazon Nova Pro. A partir de junio de 2026 en la página oficial de precios de AWS Nova, Nova Pro Bajo demanda cuesta 0,80 $ por cada millón de tokens de entrada y 3,20 $ por cada millón de tokens de salida, lo que equivale a 0,0008 $ por cada 1.000 tokens de entrada y 0,0032 $ por cada 1.000 tokens de salida.
Así, un intercambio de chat típico de 1.000 tokens de entrada y 500 tokens de salida cuesta 0,0008 $ + 0,0016 $ = 0,0024 $ por llamada. Con 100.000 llamadas al día, eso supone unos 240 $ diarios, o aproximadamente 7.200 $ al mes.
Precios verificados de Amazon Nova Bajo demanda (EE. UU. Este, nivel estándar, 2026).
|
Modelo Nova |
Por cada 1 M de tokens de entrada | Por cada 1 M de tokens de salida |
Ideal para |
|---|---|---|---|
|
Nova Micro |
0,035 $ | 0,14 $ |
Clasificación simple, decisiones de enrutamiento, extracción ligera |
|
Nova Lite |
0,06 $ | 0,24 $ |
La mayoría de chats, resúmenes, tareas de complejidad media |
|
Nova Pro |
0,80 $ | 3,20 $ |
Consultas con mucho razonamiento, flujos de trabajo de agentes, tareas multimodales |
|
Nova Pro (optimizado para latencia) |
1,00 $ | 4,00 $ |
UX en tiempo real donde cada 100 ms cuentan |
|
Nova Premier |
2,50 $ | 12,50 $ |
Nova de mayor calidad para razonamientos complejos de varios pasos |
Nota: Los tokens de entrada de lectura de caché se facturan un 75 % menos que el precio del token de entrada bajo demanda. Los precios de los niveles Flex y Batch tienen un descuento aproximado del 50 % sobre las tarifas del nivel estándar mostradas. La generación Nova 2 (Nova 2 Lite, Nova 2 Pro, Nova 2 Omni) está disponible en Preview con tarifas diferentes. Verifique las últimas tarifas aquí.
Precios verificados de Anthropic Claude en Amazon Bedrock (inferencia global entre regiones, EE. UU. Este Ohio, 2026).
|
Modelo Claude |
Por cada 1 M de entrada | Por cada 1 M de salida | Entrada por lotes (50 % dto.) | Salida por lotes (50 % dto.) |
Lectura de caché (~90 % dto. entrada) |
|---|---|---|---|---|---|
|
Claude Opus 4.8 |
5,00 $ | 25,00 $ | N/A | N/A |
0,50 $ |
|
Claude Opus 4.7 |
5,00 $ | 25,00 $ | N/A | N/A |
0,50 $ |
|
Claude Opus 4.6 |
5,00 $ | 25,00 $ | 2,50 $ | 12,50 $ |
0,50 $ |
|
Claude Opus 4.5 |
5,00 $ | 25,00 $ | 2,50 $ | 12,50 $ |
0,50 $ |
|
Claude Sonnet 4.6 |
3,00 $ | 15,00 $ | 1,50 $ | 7,50 $ |
0,30 $ |
|
Claude Sonnet 4.5 |
3,00 $ | 15,00 $ | 1,50 $ | 7,50 $ |
0,30 $ |
|
Claude Sonnet 4 |
3,00 $ | 15,00 $ | 1,50 $ | 7,50 $ |
0,30 $ |
|
Claude Haiku 4.5 |
1,00 $ | 5,00 $ | 0,50 $ | 2,50 $ |
0,10 $ |
|
Claude 3.5 Haiku |
0,80 $ | 4,00 $ | N/A | N/A |
0,08 $ |
|
Claude Mythos Preview |
no-GA | no-GA | no-GA | no-GA |
no-GA |
Las tarifas de inferencia geográfica y entre regiones dentro de la región son ligeramente superiores (p. ej., Sonnet 4.6 a 3,30 $ entrada / 16,50 $ salida por 1 M). El precio del nivel reservado también está disponible con compromisos de 1 y 3 meses para cargas de trabajo estables. Verifique las últimas tarifas aquí.
Comparación de costes que vale la pena conocer: Claude Sonnet 4.6 a 3,00 $ por cada millón de tokens de entrada es aproximadamente 4 veces más caro que Nova Pro a 0,80 $, y 50 veces más caro que Nova Lite a 0,06 $. Esa diferencia es la razón por la que el enrutamiento de modelos es importante. Enviar una consulta a Sonnet 4.6 cuando Nova Lite habría respondido correctamente le cuesta 50 veces lo que debería.
La familia Claude de Anthropic en Bedrock sigue el mismo patrón con un coste absoluto más elevado.
- Los precios de Anthropic en AWS Bedrock siguen de cerca las tarifas de API publicadas por Anthropic, con variaciones regionales.
- Claude Opus 4.8 se sitúa en lo más alto del catálogo (5,00 $ por cada millón de tokens de entrada, 25,00 $ por cada millón de salida).
- Claude Sonnet 4.6 es la opción principal de alta calidad (3,00 $ por cada millón de entrada, 15,00 $ por cada millón de salida, con una ventana de contexto de 1 millón de tokens en vista previa).
- Claude Haiku 4.5 es la opción más rápida y económica (1,00 $ por cada millón de entrada, 5,00 $ por cada millón de salida).
- Anthropic también tiene Mythos Preview disponible en vista previa de investigación restringida (no-GA, sin precios publicados todavía).
- Los modelos Meta Llama y Mistral ofrecen puntos alternativos de precio-rendimiento. Verifique siempre la tarifa actual en la página oficial de precios de AWS Bedrock antes de comprometerse con un presupuesto, ya que las tarifas cambian y la región importa.
Para las incrustaciones (modelos vectoriales como Amazon Titan Text Embeddings o Cohere Embed), solo paga por los tokens de entrada porque la salida es un vector, no texto generado. Los costes de incrustación suelen ser pequeños por llamada, pero las aplicaciones RAG generan muchas, por lo que se acumulan.
Para la generación de imágenes y vídeo, la unidad cambia. Amazon Nova Canvas cobra por imagen generada, con una tarifa más alta para resoluciones superiores o calidad premium. Amazon Nova Reel cobra por segundo de vídeo generado. Los modelos de Stability AI en Bedrock siguen patrones similares por imagen.
El patrón en todos estos casos: usted paga por la salida. La forma de reducir el coste Bajo demanda es casi siempre producir menos salida, o producir la misma salida con un modelo más barato.
Rendimiento provisionado: cuándo vale la pena
El rendimiento provisionado es la respuesta para cargas de trabajo constantes y de gran volumen. Usted reserva unidades de modelo (cada una garantiza un rendimiento de tokens por minuto conocido) y paga una tarifa por hora, tanto si la capacidad está en uso como si está inactiva.
La compensación es sencilla. Bajo demanda es más barato por token, pero tiene una latencia variable bajo carga y no garantiza la capacidad.
El rendimiento provisionado es más caro por hora, pero ofrece un rendimiento y un coste predecibles. Hay tres niveles de compromiso: sin compromiso (pago por hora, cancelación en cualquier momento), compromiso de 1 mes (tarifa por hora más baja) y compromiso de 6 meses (tarifa por hora más baja).
El cálculo honesto sobre si cambiar:
- Si su volumen diario de tokens es modesto y puntual, quédese en Bajo demanda.
- Si está ejecutando un modelo con una utilización alta y sostenida (piense en un chat de atención al cliente con tráfico constante, o procesamiento por lotes que se ejecuta casi todo el día), compare la tarifa de rendimiento provisionado con su factura de Bajo demanda. El punto de equilibrio depende de la carga de trabajo, pero como regla orientativa, las cargas de trabajo sostenidas por encima del equivalente a unos pocos cientos de miles de tokens por minuto empiezan a parecer más baratas con el rendimiento provisionado.
- Si utiliza un modelo personalizado importado o ajustado, no tiene elección. Los modelos personalizados en Bedrock requieren rendimiento provisionado por diseño, ya que no pueden compartirse en el grupo multiinquilino de Bajo demanda.
El error que debe evitar es reservar en exceso. Comprar capacidad con un compromiso de 6 meses para un tráfico que aún no es estable es la forma más rápida de gastar de más en Bedrock. La mayoría de los equipos deberían operar en Bajo demanda el tiempo suficiente para ver la forma real del tráfico antes de comprometerse.
Inferencia por lotes y almacenamiento en caché de prompts: las dos palancas silenciosas
Dos modos de precios son fáciles de pasar por alto y a menudo mueven la factura más que la decisión de elección del modelo.
Inferencia por lotes ejecuta sus prompts de forma asíncrona a la mitad de la tarifa Bajo demanda (AWS también tiene un nivel Flex con el mismo 50 % de descuento para modelos compatibles, con compensaciones similares).
Los casos de uso son no interactivos:
- Resumen nocturno de documentos
- Enriquecimiento periódico de datos
- Generación de incrustaciones a gran escala
- Generación de informes al final del día
- Cualquier cosa en la que la solicitud y la respuesta no necesiten ocurrir en tiempo real. Si puede retener una solicitud durante horas, puede pagar la mitad
El patrón que funciona: tome las partes de su carga de trabajo de gran volumen y tolerantes a la latencia y páselas a Batch. El primer lugar donde mirar es cualquier cosa que se ejecute en una programación cron. El segundo es cualquier cosa donde un usuario inicie un trabajo y esté contento de recibir un correo electrónico cuando termine.
Almacenamiento en caché de prompts es la palanca más grande para aplicaciones con mucho contexto. Si sus prompts incluyen un prefijo estático grande (un prompt del sistema, un conjunto grande de ejemplos de pocos disparos, un documento de política largo, un contexto de base de conocimientos) y el prefijo se repite en las solicitudes, Bedrock puede almacenar en caché el prefijo y facturar los tokens almacenados en caché a una fracción de la tarifa estándar de tokens de entrada.
Ahorros de hasta el 90 % en la parte almacenada en caché de la entrada son típicos para aplicaciones con mucho contexto.
Esta es la optimización menos utilizada en los despliegues de producción de Bedrock.
Si su aplicación envía el mismo prompt del sistema de 5.000 tokens con cada solicitud, probablemente esté pagando por 5.000 tokens de entrada en cada llamada cuando podría estar pagando por una pequeña fracción de eso.
Vale la pena realizar una auditoría si observa una factura de tokens de entrada más alta de lo esperado.
Los costes ocultos: Knowledge Bases, Agents, Flows, Guardrails
La mayoría de los equipos presupuestan para el modelo y olvidan los componentes que lo envuelven. Cada uno tiene su propia línea en la factura.
Bedrock Knowledge Bases es la capacidad RAG gestionada. La invocación del modelo durante la recuperación se cobra a las tarifas de inferencia estándar.
El coste oculto es el almacén de vectores: si utiliza Amazon OpenSearch Serverless como índice de respaldo (la opción gestionada por defecto), espere una base de unos pocos cientos de dólares al mes como mínimo por la capacidad de OCU, incluso con un volumen de consultas bajo.
Para cargas de trabajo más pequeñas, alternativas como Amazon Aurora PostgreSQL con pgvector u OpenSearch autogestionado pueden ser más baratas, pero requieren más configuración. También está el coste del modelo de incrustación durante la ingesta, que se paga una vez por documento pero se repite cada vez que se vuelve a indexar.
Bedrock Agents orquestan flujos de trabajo de varios pasos donde el modelo llama a herramientas, recupera contexto y produce una respuesta final.
La invocación del agente en sí no tiene una tarifa fija por llamada; lo que paga es la suma de cada llamada al modelo que el agente realiza a lo largo del camino.
Los agentes que realizan muchas llamadas a herramientas y muchas invocaciones al modelo por solicitud de usuario pueden ser engañosamente caros si solo cuenta las interacciones visibles del usuario.
Bedrock Flows es el producto de orquestación visual para encadenar prompts, condiciones y herramientas. El coste específico de Flows es de aproximadamente 0,035 $ por cada 1.000 transiciones de nodos visuales, además de los costes de invocación del modelo subyacente.
Para un uso de bajo volumen es trivial; para cargas de trabajo de producción de alto volumen vale la pena medirlo.
Bedrock Guardrails cobra 0,15 $ por cada 1.000 unidades de texto para evaluaciones de filtros de contenido en contenido de texto, más 0,00075 $ por imagen para contenido de imagen. Esto es por evaluación, no por llamada: si ejecuta Guardrails tanto en la entrada como en la salida, paga por ambos. La tarifa del filtro de texto es modesta por llamada, pero se acumula con un alto volumen de solicitudes y grandes ventanas de contenido.
Ninguno de estos es irrazonable por sí solo. Se convierten en un problema cuando los equipos los apilan todos juntos sin medir la contribución de cada uno a la cifra final.
Costes ocultos de un vistazo.
| Componente | Lo que paga | Cuándo se aplica |
|---|---|---|
|
Bedrock Knowledge Bases |
Tarifas de inferencia estándar durante la recuperación, más el coste del almacén de vectores (OpenSearch Serverless normalmente unos pocos cientos de dólares al mes como mínimo) |
Cualquier aplicación RAG que utilice las Knowledge Bases gestionadas de Bedrock |
|
Bedrock Agents |
Suma de cada llamada al modelo que realiza el agente por solicitud de usuario |
Agentes de varios pasos que encadenan llamadas a herramientas e invocaciones al modelo |
|
Bedrock Flows |
0,035 $ por cada 1.000 transiciones de nodos visuales, además de los costes del modelo subyacente |
Orquestación basada en Flows de alto volumen |
|
Bedrock Guardrails (texto) |
0,15 $ por cada 1.000 unidades de texto, cobrados por evaluación (la entrada y la salida cuentan por separado) |
Cualquier aplicación de producción con moderación de contenido, facturada en cada llamada evaluada |
|
Bedrock Guardrails (imagen) |
0,00075 $ por imagen procesada |
Moderación de contenido de imagen |
|
Transferencia de datos entre regiones |
Tarifas estándar de salida de AWS |
Despliegues multirregión o fuentes de datos en una región diferente a la del modelo |
Enrutamiento de modelos: la mayor palanca de optimización individual
Si lee solo una sección de esta guía, que sea esta.
La optimización de costes más eficaz en Bedrock no es cambiar de Bajo demanda a Rendimiento provisionado. No es Batch. No es el almacenamiento en caché de prompts. Esas son reales y vale la pena hacerlas. Pero ninguna de ellas mueve tanto la factura como utilizar el modelo del tamaño adecuado para cada solicitud.
El patrón: envíe solicitudes sencillas a un modelo barato y rápido. Envíe solicitudes complejas a un modelo grande y caro. Decida cuál es cuál mediante programación.
Un ejemplo práctico con cifras verificadas: suponga que su aplicación maneja dos tipos de consultas: búsquedas de datos breves (alrededor del 70 % del tráfico) y razonamientos complejos de varios pasos (alrededor del 30 % del tráfico).
Si enruta todo a Claude Sonnet 4.6 (3,00 $/M entrada) o Nova Premier (2,50 $/M entrada), paga tarifas de nivel superior en cada llamada.
Si enruta el 70 % a Claude Haiku 4.5 (1,00 $/M entrada), Nova Lite (0,06 $/M entrada) o incluso Nova Micro (0,035 $/M entrada) para las tareas más sencillas, y reserva Sonnet 4.6 o Nova Premier solo para el 30 % que lo necesita, puede reducir el gasto total en modelos entre un 60 y un 80 % en la parte enrutada sin cambiar la calidad de cara al usuario en las consultas que importan.
La implementación es un clasificador o una función de enrutador que se ejecuta antes de la llamada al modelo caro. AWS también ofrece una funcionalidad nativa llamada Enrutamiento inteligente de prompts que hace esto por usted entre modelos de la misma familia (Claude Sonnet 4.6 y Haiku 4.5, Llama 3.3 70B y 3.1 8B, o Nova Pro y Nova Lite).
AWS publica que puede reducir los costes hasta en un 30 % sin comprometer la precisión. Si desea el patrón de enrutamiento pero no quiere construir el clasificador usted mismo, esta es la opción sin desarrollo.
La compensación es real. El enrutamiento añade una pequeña cantidad de latencia, un coste inicial mínimo para el clasificador y complejidad arquitectónica. Para aplicaciones de bajo volumen es excesivo. Para cualquier cosa con un tráfico significativo, es la palanca más grande que tiene.
Este es el patrón que Avahi ha utilizado con Groopview, nuestro caso de estudio principal a continuación.
Palancas de optimización, clasificadas por impacto.
| Palanca | Impacto típico | Esfuerzo de implementación | Riesgo |
|---|---|---|---|
|
Ajustar el tamaño del modelo (enrutamiento) |
Alto (a menudo un gasto en modelos entre un 30 y un 50 % menor) | Medio (clasificador + lógica de enrutamiento, o uso del enrutamiento inteligente de prompts de AWS) |
Bajo si prueba primero el modelo más barato con tráfico representativo |
|
Almacenamiento en caché de prompts para contexto estático |
Alto para aplicaciones con mucho contexto (hasta un 90 % dto. en entrada en caché) | Bajo (configuración, no arquitectura) |
Muy bajo |
|
Inferencia por lotes para trabajos fuera de línea |
Medio (50 % dto. sobre Bajo demanda en la parte por lotes) | Medio (arquitectura basada en colas) |
Muy bajo |
|
Cambiar tráfico sostenido a Rendimiento provisionado |
Medio para cargas de trabajo constantes | Medio (planificación de capacidad + compromiso) |
Medio (reservar en exceso desperdicia dinero) |
|
Reducir la longitud de los tokens de salida (prompts, modelado de respuestas) |
Medio (recortar la salida es de 3 a 5 veces más barato que la entrada) | Bajo (ingeniería de prompts) |
Bajo |
|
Almacenar en caché salidas elegibles para Guardrails |
Bajo a medio | Bajo |
Muy bajo |
Calculadora de precios de AWS Bedrock: previsión de su factura
La oficial Calculadora de precios de AWS admite Amazon Bedrock y es la herramienta adecuada para una primera previsión. Los campos que más importan:
- Modelo y Región (las tarifas difieren entre regiones)
- Tokens de entrada diarios y tokens de salida diarios (su modelo y modo de precio más utilizados)
- Tamaño del almacén de vectores de Knowledge Bases y tasa de consultas
- Evaluaciones de Guardrails por día
- Volumen de generación de imágenes o vídeo, si procede
La advertencia honesta: la calculadora solo le muestra lo que AWS cobrará por los componentes que usted introduzca. No detecta los patrones que impulsan el gasto excesivo (modelos sobredimensionados, prompts sin caché, rendimiento reservado en exceso, Guardrails ejecutándose en cada entrada y cada salida).
Para una previsión real en una carga de trabajo real, instrumente primero la aplicación, mida durante una o dos semanas en Bajo demanda y realice la previsión a partir del uso observado. La calculadora es un punto de partida, no la respuesta definitiva.
Cuándo NO usar Bedrock
Vale la pena decirlo directamente porque nadie más lo escribe.
Bedrock ES la respuesta correcta cuando:
- Desea acceso gestionado a múltiples modelos de vanguardia bajo una sola interfaz (Anthropic, Amazon Nova, Meta, Mistral, Cohere y otros sin gestionar relaciones con proveedores por separado).
- Necesita integración nativa de AWS con el resto de su infraestructura (S3, Lambda, ECS, IAM, VPC, CloudWatch).
- Le importan los controles de IAM, el aislamiento de VPC y el registro de auditoría de nivel AWS para el cumplimiento normativo.
- La economía unitaria tiene sentido a su escala una vez que aplica el enrutamiento, el almacenamiento en caché y el modo de precio adecuado.
Bedrock NO es la respuesta correcta cuando:
- Toda su carga de trabajo es un modelo específico con un volumen sostenido muy alto y puede ejecutarlo de forma más económica en otro lugar.
- Ejecuta modelos de la familia Llama con una carga sostenida pesada (el alojamiento directo en Amazon EC2 con Inferentia o una plataforma de inferencia dedicada a menudo supera la economía de Bedrock).
- Su caso de uso se ajusta a un modelo pequeño de código abierto y el autohospedaje en su propia infraestructura es significativamente más barato.
- Su aplicación solo utiliza modelos de un único proveedor y acudir directamente a la API de ese proveedor resulta más rentable (a cambio, renuncia a la seguridad e integración nativas de AWS).
Bedrock optimiza la amplitud (muchos modelos, una interfaz), la gobernanza (controles de nivel AWS) y la facilidad de integración. Si esto es lo que le importa, Bedrock es la opción más sólida del mercado. Si no lo necesita, haga los cálculos con las alternativas antes de comprometerse.
Resultado real: cómo Groopview redujo el tiempo de respuesta del avatar de IA en un 80 % con el enrutamiento de modelo Dual-Nova
Groopview crea un avatar de coanfitrión de IA que procesa texto e imágenes durante transmisiones en vivo en tiempo real. El producto es sensible a la latencia de una manera que la mayoría de la IA empresarial no lo es: una respuesta lenta rompe la experiencia de redes sociales que el avatar debe facilitar.

La arquitectura anterior enrutaba cada interacción a través de un único modelo capaz. El tiempo de respuesta era de unos 12 segundos. Para un producto de transmisión en vivo, eso era demasiado lento para sentirse en tiempo real, y el coste del modelo por interacción era más alto de lo que la economía unitaria podía soportar a escala.
En Avahi reconstruimos la arquitectura en Amazon Bedrock utilizando un marco de orquestación Dual-Nova, enrutando cada solicitud a través de un clasificador que decide si la consulta es simple o compleja:
- Las consultas simples (la mayor parte del tráfico) se enrutan a Amazon Nova Lite, el modelo más pequeño y económico.
- Las consultas complejas se enrutan a Amazon Nova Pro, el modelo más grande y de mayor calidad.
La infraestructura: Amazon Bedrock (Nova Pro y Nova Lite), Amazon API Gateway, AWS Lambda, instancias de GPU Amazon EC2 g6e para el renderizado del avatar, Amazon S3, Amazon RDS y Amazon CloudWatch para la observabilidad.
El resultado:
- El tiempo de respuesta del avatar de IA bajó de 12 segundos a unos 2,5 segundos para consultas simples (una reducción de la latencia del 80 %).
- Las consultas complejas responden en unos 7 segundos.
- Mayor retención de sesiones y nuevas fuentes de ingresos gracias a la mejora de la experiencia en tiempo real.
- El coste por interacción disminuyó porque la mayoría del tráfico ahora utiliza el modelo más barato.
Este es el patrón de enrutamiento de modelos hecho realidad. El mismo producto, los mismos modelos disponibles, diferente elección arquitectónica sobre qué solicitud llega a qué modelo.
Lea el caso de estudio completo →
Dónde encaja la financiación de AWS
La parte que la mayoría de las guías de precios no pueden ofrecer.
Avahi es un AWS Premier Tier Services Partner y, a través de nuestra asociación con AWS, la prueba de concepto que demuestre su caso de costes en Bedrock puede ser financiada. Las empresas elegibles pueden recibir una PoC financiada dependiendo del proyecto, para que pueda modelar el coste real en su carga de trabajo real antes de comprometerse con una construcción completa.
La estructura que funciona: elija la carga de trabajo que está evaluando, defina el objetivo de coste, construya una PoC acotada frente a su tráfico real en Bedrock con la arquitectura de enrutamiento y almacenamiento en caché adecuada, mida la factura frente a la previsión y decida.
Comience con una PoC financiada →
Tome la decisión con Avahi
Bedrock es la plataforma de modelos gestionados más sólida del mercado para equipos que desean amplitud de modelos de vanguardia con controles nativos de AWS. La factura se convierte en un problema solo cuando los equipos usan por defecto el modelo más grande, dejan los prompts estáticos sin caché, reservan rendimiento en exceso y omiten la capa de enrutamiento que realiza el trabajo real de optimización de costes.
La forma de obtener una previsión de costes defendible no es una calculadora. Es una PoC acotada frente a su carga de trabajo real que demuestre que la estrategia de enrutamiento, almacenamiento en caché y aprovisionamiento funciona a su escala.
Empiece con una PoC financiada en su carga de trabajo de mayor volumen. Las empresas elegibles pueden recibir una PoC financiada dependiendo de su proyecto.
Preguntas frecuentes: Precios de AWS Bedrock
¿Cuánto cuesta obtener Bedrock?
No hay un coste fijo para empezar a utilizar AWS Bedrock (o Amazon Bedrock; el servicio se denomina de ambas formas). Usted habilita el servicio en su cuenta de AWS, solicita acceso a los modelos fundacionales que desea utilizar y paga solo por lo que procesa: por cada 1.000 tokens de entrada y salida para modelos de texto, por imagen para la generación de imágenes, por segundo para vídeo, más las tarifas por hora para cualquier rendimiento provisionado reservado. Un pequeño prototipo que utilice un modelo como Amazon Nova Lite o Claude 3.5 Haiku puede funcionar por unos pocos dólares al día. Una aplicación de producción puede oscilar entre cientos y muchos miles de dólares al mes, dependiendo del volumen y la elección del modelo.
¿Es gratuito AWS Bedrock?
Bedrock no es gratuito en el sentido en que Amazon S3 o AWS Lambda tienen niveles gratuitos en los que puede confiar para cargas de trabajo de producción. AWS ofrece periódicamente créditos y asignaciones de prueba para modelos específicos, y los proveedores de modelos individuales ocasionalmente promocionan periodos de evaluación. Para despliegues de producción, asuma que Bedrock es de pago desde la primera llamada. La forma correcta de evaluar antes de comprometerse es una prueba de concepto acotada, que puede ser parcial o totalmente financiada por AWS para empresas elegibles.
¿Es caro Bedrock?
Bedrock no es categóricamente caro. Se vuelve caro de tres maneras predecibles: usando por defecto el modelo más grande para cada solicitud cuando la mayoría no lo necesitan, dejando grandes prompts estáticos sin caché y reservando rendimiento provisionado en exceso antes de que el tráfico sea estable. Los equipos que enrutan solicitudes simples a modelos pequeños, almacenan en caché el contexto repetido y permanecen en Bajo demanda hasta que el tráfico es predecible encuentran que los costes de Bedrock son razonables para lo que ofrecen. (Los hilos sobre precios de AWS Bedrock en Reddit muestran consistentemente los mismos tres modos de fallo: modelos sobredimensionados, prompts sin caché y rendimiento reservado en exceso). Las decisiones de arquitectura importan más que la lista de tarifas.
¿Para qué se utiliza AWS Bedrock?
AWS Bedrock es un servicio totalmente gestionado que le da acceso a modelos fundacionales de múltiples proveedores (Anthropic Claude, Amazon Nova, Meta Llama, Mistral, Stability AI, Cohere y otros) bajo una única API. Se utiliza para crear aplicaciones de IA generativa, incluyendo chatbots, sistemas RAG, procesamiento de documentos, generación de imágenes y vídeo, agentes y moderación de contenido, sin el trabajo de gestionar la infraestructura del modelo subyacente. Bedrock es la respuesta nativa de AWS a la pregunta de cómo utilizar modelos de vanguardia dentro de un entorno que cumpla con los requisitos de IAM, VPC y auditoría empresarial.
¿Cuánto cuesta Claude en Bedrock?
Los precios de Claude en AWS Bedrock siguen el patrón estándar de Bedrock: precio por cada 1.000 tokens de entrada y salida, donde la salida suele costar de 3 a 5 veces más que la entrada. Claude Sonnet 4.6 es la opción de mayor calidad y mayor coste en la gama actual. Claude 3.5 Haiku es la opción más rápida y económica para la mayoría de las tareas. Las tarifas exactas varían según la región y cambian a medida que Anthropic lanza nuevas versiones, por lo que siempre debe verificar la tarifa actual en la página oficial de precios de AWS Bedrock antes de realizar previsiones.
¿Qué es el precio del rendimiento provisionado de AWS Bedrock?
El rendimiento provisionado en Bedrock reserva capacidad dedicada en unidades de modelo, facturadas por hora por unidad independientemente de la utilización. Hay tres niveles de compromiso: sin compromiso (tarifa por hora más alta, cancelación en cualquier momento), compromiso de 1 mes (tarifa más baja) y compromiso de 6 meses (tarifa más baja). Cada modelo tiene su propia tarifa por unidad de modelo y sus propios ahorros por nivel de compromiso. El punto de equilibrio frente a Bajo demanda depende de la utilización sostenida; para cargas de trabajo predecibles de alto volumen suele ganar, para tráfico puntual o impredecible normalmente no.
Precios de AWS Bedrock Guardrails: ¿cuánto cuesta?
Bedrock Guardrails se facturan a 0,15 $ por cada 1.000 unidades de texto para evaluaciones de filtros de contenido en contenido de texto (más 0,00075 $ por imagen para contenido de imagen), según lo publicado en la página de precios de AWS Bedrock a partir de junio de 2026. El precio es por evaluación, por lo que si ejecuta Guardrails tanto en la entrada como en la salida de cada llamada al modelo, paga por ambas evaluaciones. Para aplicaciones de bajo volumen esto es trivial. Para despliegues de producción de alto volumen con grandes ventanas de contenido, Guardrails puede convertirse en una parte significativa de la factura total de Bedrock y vale la pena medirlo por separado.
¿Cómo funciona el precio de los LLM de AWS Bedrock?
El precio de los LLM de Bedrock tiene cuatro modalidades: bajo demanda (por cada 1.000 tokens de entrada y salida, sin compromiso), rendimiento aprovisionado (capacidad reservada por hora), inferencia por lotes (procesamiento asíncrono a aproximadamente la mitad de la tarifa bajo demanda) y caché de prompts (contexto de entrada en caché facturado a una fracción de las tarifas estándar, con hasta un 90 % de descuento). La mayoría de los despliegues en producción combinan tres de estas: bajo demanda para el tráfico en tiempo real, por lotes para el trabajo nocturno y caché de prompts en prefijos de prompts estáticos. El rendimiento aprovisionado entra en juego cuando el uso es grande, constante y predecible.
¿Puede Avahi ayudar a optimizar mi factura de AWS Bedrock?
Sí. Avahi es un AWS Premier Tier Services Partner que diseña y optimiza arquitecturas de IA generativa en AWS, incluyendo el enrutamiento de modelos, la caché de prompts, la migración a Batch y el rendimiento aprovisionado dimensionado correctamente. Gracias a nuestra colaboración con AWS, se puede financiar la prueba de concepto que demuestre el caso de costes. Las empresas que cumplan los requisitos pueden recibir una PoC financiada en función del proyecto, para que pueda modelar el ahorro real sobre su carga de trabajo real antes de comprometerse con una reconstrucción.