Precios de AWS Bedrock: desglose de costes y cómo optimizarlos

Su prueba de concepto de Bedrock funcionó. El modelo era bueno, la API era limpia, lanzó una funcionalidad y a los usuarios les gusta.

Entonces llegó la factura.

Era más alta que la cifra aproximada que utilizó para dar luz verde al proyecto, y las líneas que puede ver en la factura no explican del todo por qué. No está solo, y la respuesta no es «Bedrock es caro».

La respuesta es que los precios de Bedrock tienen cinco o seis piezas móviles que no son evidentes hasta que se han pasado uno o dos ciclos de facturación.

Esta guía es la que un ingeniero sénior de AWS escribiría para otro ingeniero sénior de AWS. Analizamos cómo le cobra Bedrock realmente a mediados de 2026, dónde se esconden las sorpresas, las pocas palancas que más mueven la factura y los momentos en los que la respuesta es no usar Bedrock en absoluto.

Resumen: Precios de AWS Bedrock

Bedrock le cobra de cuatro formas: Bajo demanda (por cada 1.000 tokens, por imagen o por segundo de vídeo), Rendimiento provisionado (por hora por unidad de modelo), Inferencia por lotes (50 % de descuento sobre el precio Bajo demanda) y Almacenamiento en caché de prompts (hasta un 90 % de descuento en la parte de tokens de entrada para contextos repetidos).
Costes ocultos que pillan a los equipos desprevenidos: almacenamiento de vectores en Knowledge Bases (normalmente un mínimo de unos pocos cientos de dólares al mes si utiliza OpenSearch Serverless como almacén de vectores), Bedrock Guardrails a 0,15 $ por cada 1.000 unidades de texto y Bedrock Flows a 0,035 $ por cada 1.000 transiciones de nodos visuales.
La mayor palanca de optimización individual es el enrutamiento de modelos: envíe solicitudes sencillas a un modelo pequeño como Amazon Nova Lite (0,06 $ por cada millón de tokens de entrada) o Nova Micro (0,035 $ por cada millón), y reserve un modelo grande como Claude Sonnet 4.6 o Nova Premier solo para las consultas que lo necesiten. Esto por sí solo puede reducir el gasto a la mitad o más sin tocar el resto de la infraestructura.
Los precios de Bedrock no son realmente caros para la carga de trabajo adecuada. Resultan caros cuando los equipos utilizan por defecto el modelo más grande, dejan grandes prompts estáticos sin almacenar en caché y aprovisionan en exceso un rendimiento que no necesitan.
¿Desea modelar su carga de trabajo específica en Bedrock frente a su gasto actual? Comience con una PoC financiada y obtenga las cifras antes de comprometerse.

Cómo funcionan realmente los precios de AWS Bedrock (también conocidos como precios de Amazon Bedrock)

Bedrock se basa en el uso. No hay un mínimo, ni suscripción, ni un nivel gratuito de AWS Bedrock en el que pueda confiar para producción (más información sobre la cuestión de la gratuidad más adelante). Usted paga por lo que usa, pero «lo que usa» tiene cinco categorías que vale la pena entender antes de pronosticar una factura.

Los precios de Amazon Bedrock (AWS y Amazon se refieren al mismo servicio indistintamente) se desglosan en cuatro modos principales, en términos sencillos:

Bajo demanda: Pague por cada 1.000 tokens de entrada, por cada 1.000 tokens de salida, por imagen o por segundo de vídeo generado. Sin compromiso, sin mínimo, los precios varían según el modelo y la región de AWS. Aquí es donde empiezan la mayoría de los equipos.
Rendimiento provisionado: Reserve capacidad dedicada para un modelo específico en unidades de modelo, facturadas por hora, utilice o no la capacidad. A esto es a lo que se cambia cuando el uso se vuelve predecible y elevado.
Inferencia por lotes: Ejecute trabajos asíncronos con un 50 % de descuento sobre la tarifa Bajo demanda. Específicamente para Amazon Nova, AWS también ofrece un nivel Flex con el mismo 50 % de descuento, además de un nivel Priority a aproximadamente 1,75 veces el estándar para cargas de trabajo críticas que necesitan una asignación de computación preferente. Adecuado para trabajos en los que la latencia no importa (resúmenes nocturnos, clasificación de documentos, enriquecimiento periódico).
Almacenamiento en caché de prompts: Almacene en caché el contexto de entrada repetido (prompts del sistema, fragmentos de conocimiento extensos, ejemplos de pocos disparos) y pague una fracción de la tarifa de tokens de entrada por la parte almacenada en caché. Ahorros de hasta el 90 % en la parte de entrada para aplicaciones con mucho contexto.

Los cuatro modos no son excluyentes. Un sistema de producción suele utilizar tres de ellos a la vez: –

Bajo demanda para el tráfico en directo
Por lotes para el trabajo nocturno
Almacenamiento en caché de prompts en las partes estáticas de cada solicitud y, a veces,
Rendimiento provisionado en el modelo que maneja la mayor parte de la carga.

Luego están los componentes que se asientan sobre el modelo y tienen sus propios precios: Bedrock Knowledge Bases para RAG, Bedrock Agents para flujos de trabajo de varios pasos, Bedrock Flows para orquestación visual y Bedrock Guardrails para moderación de contenido.

Cada uno tiene una línea separada en la factura.

Referencia rápida: los cuatro modos de precios de AWS Bedrock de un vistazo.

Modo de precio	Cómo se paga	Ideal para	Descuento típico frente a Bajo demanda
Bajo demanda	Por cada 1.000 tokens de entrada, por cada 1.000 tokens de salida, por imagen, por segundo de vídeo	Uso modesto, puntual o impredecible; prototipos y producción temprana	Base (sin descuento)
Rendimiento provisionado	Por hora por unidad de modelo (niveles sin compromiso, de 1 mes o de 6 meses)	Cargas de trabajo constantes, de gran volumen y predecibles; necesario para modelos ajustados o personalizados	Variable; depende de la utilización y el compromiso
Inferencia por lotes (o nivel Flex)	Misma estructura por token, asíncrona	Resúmenes nocturnos, enriquecimiento periódico, clasificación, generación de incrustaciones	50 % de descuento
Almacenamiento en caché de prompts	Tokens de entrada almacenados en caché facturados a una fracción de la tarifa estándar	Aplicaciones con grandes prefijos estáticos (prompts del sistema, ejemplos de pocos disparos, contexto de conocimiento fijo)	Hasta un 90 % de descuento en la parte almacenada en caché

Precios bajo demanda: el punto de partida predeterminado

Cuando llama por primera vez a un modelo de Bedrock a través de la API, se encuentra en el modo Bajo demanda. El modelo es compartido multiinquilino, usted paga por token y no hay compromiso.

La estructura es la misma en todos los modelos de texto: paga por separado por los tokens de entrada (su prompt, incluyendo cualquier contexto recuperado y el mensaje del sistema) y los tokens de salida (la respuesta del modelo). Los tokens de salida suelen costar de 3 a 5 veces más que los de entrada. Esta proporción es el dato más importante para la previsión de costes, ya que la mayoría de los equipos infravaloran el coste de salida cuando estiman el gasto.

Un ejemplo rápido utilizando Amazon Nova Pro. A partir de junio de 2026 en la página oficial de precios de AWS Nova, Nova Pro Bajo demanda cuesta 0,80 $ por cada millón de tokens de entrada y 3,20 $ por cada millón de tokens de salida, lo que equivale a 0,0008 $ por cada 1.000 tokens de entrada y 0,0032 $ por cada 1.000 tokens de salida.

Así, un intercambio de chat típico de 1.000 tokens de entrada y 500 tokens de salida cuesta 0,0008 $ + 0,0016 $ = 0,0024 $ por llamada. Con 100.000 llamadas al día, eso supone unos 240 $ diarios, o aproximadamente 7.200 $ al mes.

Precios verificados de Amazon Nova Bajo demanda (EE. UU. Este, nivel estándar, 2026).

Modelo Nova	Por cada 1 M de tokens de entrada	Por cada 1 M de tokens de salida	Ideal para
Nova Micro	0,035 $	0,14 $	Clasificación simple, decisiones de enrutamiento, extracción ligera
Nova Lite	0,06 $	0,24 $	La mayoría de chats, resúmenes, tareas de complejidad media
Nova Pro	0,80 $	3,20 $	Consultas con mucho razonamiento, flujos de trabajo de agentes, tareas multimodales
Nova Pro (optimizado para latencia)	1,00 $	4,00 $	UX en tiempo real donde cada 100 ms cuentan
Nova Premier	2,50 $	12,50 $	Nova de mayor calidad para razonamientos complejos de varios pasos

Nota: Los tokens de entrada de lectura de caché se facturan un 75 % menos que el precio del token de entrada bajo demanda. Los precios de los niveles Flex y Batch tienen un descuento aproximado del 50 % sobre las tarifas del nivel estándar mostradas. La generación Nova 2 (Nova 2 Lite, Nova 2 Pro, Nova 2 Omni) está disponible en Preview con tarifas diferentes. Verifique las últimas tarifas aquí.

Precios verificados de Anthropic Claude en Amazon Bedrock (inferencia global entre regiones, EE. UU. Este Ohio, 2026).

Modelo Claude	Por cada 1 M de entrada	Por cada 1 M de salida	Entrada por lotes (50 % dto.)	Salida por lotes (50 % dto.)	Lectura de caché (~90 % dto. entrada)
Claude Opus 4.8	5,00 $	25,00 $	N/A	N/A	0,50 $
Claude Opus 4.7	5,00 $	25,00 $	N/A	N/A	0,50 $
Claude Opus 4.6	5,00 $	25,00 $	2,50 $	12,50 $	0,50 $
Claude Opus 4.5	5,00 $	25,00 $	2,50 $	12,50 $	0,50 $
Claude Sonnet 4.6	3,00 $	15,00 $	1,50 $	7,50 $	0,30 $
Claude Sonnet 4.5	3,00 $	15,00 $	1,50 $	7,50 $	0,30 $
Claude Sonnet 4	3,00 $	15,00 $	1,50 $	7,50 $	0,30 $
Claude Haiku 4.5	1,00 $	5,00 $	0,50 $	2,50 $	0,10 $
Claude 3.5 Haiku	0,80 $	4,00 $	N/A	N/A	0,08 $
Claude Mythos Preview	no-GA	no-GA	no-GA	no-GA	no-GA

Las tarifas de inferencia geográfica y entre regiones dentro de la región son ligeramente superiores (p. ej., Sonnet 4.6 a 3,30 $ entrada / 16,50 $ salida por 1 M). El precio del nivel reservado también está disponible con compromisos de 1 y 3 meses para cargas de trabajo estables. Verifique las últimas tarifas aquí.

Comparación de costes que vale la pena conocer: Claude Sonnet 4.6 a 3,00 $ por cada millón de tokens de entrada es aproximadamente 4 veces más caro que Nova Pro a 0,80 $, y 50 veces más caro que Nova Lite a 0,06 $. Esa diferencia es la razón por la que el enrutamiento de modelos es importante. Enviar una consulta a Sonnet 4.6 cuando Nova Lite habría respondido correctamente le cuesta 50 veces lo que debería.

La familia Claude de Anthropic en Bedrock sigue el mismo patrón con un coste absoluto más elevado.

Los precios de Anthropic en AWS Bedrock siguen de cerca las tarifas de API publicadas por Anthropic, con variaciones regionales.
Claude Opus 4.8 se sitúa en lo más alto del catálogo (5,00 $ por cada millón de tokens de entrada, 25,00 $ por cada millón de salida).
Claude Sonnet 4.6 es la opción principal de alta calidad (3,00 $ por cada millón de entrada, 15,00 $ por cada millón de salida, con una ventana de contexto de 1 millón de tokens en vista previa).
Claude Haiku 4.5 es la opción más rápida y económica (1,00 $ por cada millón de entrada, 5,00 $ por cada millón de salida).
Anthropic también tiene Mythos Preview disponible en vista previa de investigación restringida (no-GA, sin precios publicados todavía).
Los modelos Meta Llama y Mistral ofrecen puntos alternativos de precio-rendimiento. Verifique siempre la tarifa actual en la página oficial de precios de AWS Bedrock antes de comprometerse con un presupuesto, ya que las tarifas cambian y la región importa.

Para las incrustaciones (modelos vectoriales como Amazon Titan Text Embeddings o Cohere Embed), solo paga por los tokens de entrada porque la salida es un vector, no texto generado. Los costes de incrustación suelen ser pequeños por llamada, pero las aplicaciones RAG generan muchas, por lo que se acumulan.

Para la generación de imágenes y vídeo, la unidad cambia. Amazon Nova Canvas cobra por imagen generada, con una tarifa más alta para resoluciones superiores o calidad premium. Amazon Nova Reel cobra por segundo de vídeo generado. Los modelos de Stability AI en Bedrock siguen patrones similares por imagen.

El patrón en todos estos casos: usted paga por la salida. La forma de reducir el coste Bajo demanda es casi siempre producir menos salida, o producir la misma salida con un modelo más barato.

Rendimiento provisionado: cuándo vale la pena

El rendimiento provisionado es la respuesta para cargas de trabajo constantes y de gran volumen. Usted reserva unidades de modelo (cada una garantiza un rendimiento de tokens por minuto conocido) y paga una tarifa por hora, tanto si la capacidad está en uso como si está inactiva.

La compensación es sencilla. Bajo demanda es más barato por token, pero tiene una latencia variable bajo carga y no garantiza la capacidad.

El rendimiento provisionado es más caro por hora, pero ofrece un rendimiento y un coste predecibles. Hay tres niveles de compromiso: sin compromiso (pago por hora, cancelación en cualquier momento), compromiso de 1 mes (tarifa por hora más baja) y compromiso de 6 meses (tarifa por hora más baja).

El cálculo honesto sobre si cambiar:

Si su volumen diario de tokens es modesto y puntual, quédese en Bajo demanda.
Si está ejecutando un modelo con una utilización alta y sostenida (piense en un chat de atención al cliente con tráfico constante, o procesamiento por lotes que se ejecuta casi todo el día), compare la tarifa de rendimiento provisionado con su factura de Bajo demanda. El punto de equilibrio depende de la carga de trabajo, pero como regla orientativa, las cargas de trabajo sostenidas por encima del equivalente a unos pocos cientos de miles de tokens por minuto empiezan a parecer más baratas con el rendimiento provisionado.
Si utiliza un modelo personalizado importado o ajustado, no tiene elección. Los modelos personalizados en Bedrock requieren rendimiento provisionado por diseño, ya que no pueden compartirse en el grupo multiinquilino de Bajo demanda.

El error que debe evitar es reservar en exceso. Comprar capacidad con un compromiso de 6 meses para un tráfico que aún no es estable es la forma más rápida de gastar de más en Bedrock. La mayoría de los equipos deberían operar en Bajo demanda el tiempo suficiente para ver la forma real del tráfico antes de comprometerse.

Inferencia por lotes y almacenamiento en caché de prompts: las dos palancas silenciosas

Dos modos de precios son fáciles de pasar por alto y a menudo mueven la factura más que la decisión de elección del modelo.

Inferencia por lotes ejecuta sus prompts de forma asíncrona a la mitad de la tarifa Bajo demanda (AWS también tiene un nivel Flex con el mismo 50 % de descuento para modelos compatibles, con compensaciones similares).

Los casos de uso son no interactivos:

Resumen nocturno de documentos
Enriquecimiento periódico de datos
Generación de incrustaciones a gran escala
Generación de informes al final del día
Cualquier cosa en la que la solicitud y la respuesta no necesiten ocurrir en tiempo real. Si puede retener una solicitud durante horas, puede pagar la mitad

El patrón que funciona: tome las partes de su carga de trabajo de gran volumen y tolerantes a la latencia y páselas a Batch. El primer lugar donde mirar es cualquier cosa que se ejecute en una programación cron. El segundo es cualquier cosa donde un usuario inicie un trabajo y esté contento de recibir un correo electrónico cuando termine.

Almacenamiento en caché de prompts es la palanca más grande para aplicaciones con mucho contexto. Si sus prompts incluyen un prefijo estático grande (un prompt del sistema, un conjunto grande de ejemplos de pocos disparos, un documento de política largo, un contexto de base de conocimientos) y el prefijo se repite en las solicitudes, Bedrock puede almacenar en caché el prefijo y facturar los tokens almacenados en caché a una fracción de la tarifa estándar de tokens de entrada.

Ahorros de hasta el 90 % en la parte almacenada en caché de la entrada son típicos para aplicaciones con mucho contexto.

Esta es la optimización menos utilizada en los despliegues de producción de Bedrock.

Si su aplicación envía el mismo prompt del sistema de 5.000 tokens con cada solicitud, probablemente esté pagando por 5.000 tokens de entrada en cada llamada cuando podría estar pagando por una pequeña fracción de eso.

Vale la pena realizar una auditoría si observa una factura de tokens de entrada más alta de lo esperado.

Los costes ocultos: Knowledge Bases, Agents, Flows, Guardrails

La mayoría de los equipos presupuestan para el modelo y olvidan los componentes que lo envuelven. Cada uno tiene su propia línea en la factura.

Bedrock Knowledge Bases es la capacidad RAG gestionada. La invocación del modelo durante la recuperación se cobra a las tarifas de inferencia estándar.

El coste oculto es el almacén de vectores: si utiliza Amazon OpenSearch Serverless como índice de respaldo (la opción gestionada por defecto), espere una base de unos pocos cientos de dólares al mes como mínimo por la capacidad de OCU, incluso con un volumen de consultas bajo.

Para cargas de trabajo más pequeñas, alternativas como Amazon Aurora PostgreSQL con pgvector u OpenSearch autogestionado pueden ser más baratas, pero requieren más configuración. También está el coste del modelo de incrustación durante la ingesta, que se paga una vez por documento pero se repite cada vez que se vuelve a indexar.

Bedrock Agents orquestan flujos de trabajo de varios pasos donde el modelo llama a herramientas, recupera contexto y produce una respuesta final.

La invocación del agente en sí no tiene una tarifa fija por llamada; lo que paga es la suma de cada llamada al modelo que el agente realiza a lo largo del camino.

Los agentes que realizan muchas llamadas a herramientas y muchas invocaciones al modelo por solicitud de usuario pueden ser engañosamente caros si solo cuenta las interacciones visibles del usuario.

Bedrock Flows es el producto de orquestación visual para encadenar prompts, condiciones y herramientas. El coste específico de Flows es de aproximadamente 0,035 $ por cada 1.000 transiciones de nodos visuales, además de los costes de invocación del modelo subyacente.

Para un uso de bajo volumen es trivial; para cargas de trabajo de producción de alto volumen vale la pena medirlo.

Bedrock Guardrails cobra 0,15 $ por cada 1.000 unidades de texto para evaluaciones de filtros de contenido en contenido de texto, más 0,00075 $ por imagen para contenido de imagen. Esto es por evaluación, no por llamada: si ejecuta Guardrails tanto en la entrada como en la salida, paga por ambos. La tarifa del filtro de texto es modesta por llamada, pero se acumula con un alto volumen de solicitudes y grandes ventanas de contenido.

Ninguno de estos es irrazonable por sí solo. Se convierten en un problema cuando los equipos los apilan todos juntos sin medir la contribución de cada uno a la cifra final.

Costes ocultos de un vistazo.

Componente	Lo que paga	Cuándo se aplica
Bedrock Knowledge Bases	Tarifas de inferencia estándar durante la recuperación, más el coste del almacén de vectores (OpenSearch Serverless normalmente unos pocos cientos de dólares al mes como mínimo)	Cualquier aplicación RAG que utilice las Knowledge Bases gestionadas de Bedrock
Bedrock Agents	Suma de cada llamada al modelo que realiza el agente por solicitud de usuario	Agentes de varios pasos que encadenan llamadas a herramientas e invocaciones al modelo
Bedrock Flows	0,035 $ por cada 1.000 transiciones de nodos visuales, además de los costes del modelo subyacente	Orquestación basada en Flows de alto volumen
Bedrock Guardrails (texto)	0,15 $ por cada 1.000 unidades de texto, cobrados por evaluación (la entrada y la salida cuentan por separado)	Cualquier aplicación de producción con moderación de contenido, facturada en cada llamada evaluada
Bedrock Guardrails (imagen)	0,00075 $ por imagen procesada	Moderación de contenido de imagen
Transferencia de datos entre regiones	Tarifas estándar de salida de AWS	Despliegues multirregión o fuentes de datos en una región diferente a la del modelo

Enrutamiento de modelos: la mayor palanca de optimización individual

Si lee solo una sección de esta guía, que sea esta.

La optimización de costes más eficaz en Bedrock no es cambiar de Bajo demanda a Rendimiento provisionado. No es Batch. No es el almacenamiento en caché de prompts. Esas son reales y vale la pena hacerlas. Pero ninguna de ellas mueve tanto la factura como utilizar el modelo del tamaño adecuado para cada solicitud.

El patrón: envíe solicitudes sencillas a un modelo barato y rápido. Envíe solicitudes complejas a un modelo grande y caro. Decida cuál es cuál mediante programación.

Un ejemplo práctico con cifras verificadas: suponga que su aplicación maneja dos tipos de consultas: búsquedas de datos breves (alrededor del 70 % del tráfico) y razonamientos complejos de varios pasos (alrededor del 30 % del tráfico).

Si enruta todo a Claude Sonnet 4.6 (3,00 $/M entrada) o Nova Premier (2,50 $/M entrada), paga tarifas de nivel superior en cada llamada.

Si enruta el 70 % a Claude Haiku 4.5 (1,00 $/M entrada), Nova Lite (0,06 $/M entrada) o incluso Nova Micro (0,035 $/M entrada) para las tareas más sencillas, y reserva Sonnet 4.6 o Nova Premier solo para el 30 % que lo necesita, puede reducir el gasto total en modelos entre un 60 y un 80 % en la parte enrutada sin cambiar la calidad de cara al usuario en las consultas que importan.

La implementación es un clasificador o una función de enrutador que se ejecuta antes de la llamada al modelo caro. AWS también ofrece una funcionalidad nativa llamada Enrutamiento inteligente de prompts que hace esto por usted entre modelos de la misma familia (Claude Sonnet 4.6 y Haiku 4.5, Llama 3.3 70B y 3.1 8B, o Nova Pro y Nova Lite).

AWS publica que puede reducir los costes hasta en un 30 % sin comprometer la precisión. Si desea el patrón de enrutamiento pero no quiere construir el clasificador usted mismo, esta es la opción sin desarrollo.

La compensación es real. El enrutamiento añade una pequeña cantidad de latencia, un coste inicial mínimo para el clasificador y complejidad arquitectónica. Para aplicaciones de bajo volumen es excesivo. Para cualquier cosa con un tráfico significativo, es la palanca más grande que tiene.

Este es el patrón que Avahi ha utilizado con Groopview, nuestro caso de estudio principal a continuación.

Palancas de optimización, clasificadas por impacto.

Palanca	Impacto típico	Esfuerzo de implementación	Riesgo
Ajustar el tamaño del modelo (enrutamiento)	Alto (a menudo un gasto en modelos entre un 30 y un 50 % menor)	Medio (clasificador + lógica de enrutamiento, o uso del enrutamiento inteligente de prompts de AWS)	Bajo si prueba primero el modelo más barato con tráfico representativo
Almacenamiento en caché de prompts para contexto estático	Alto para aplicaciones con mucho contexto (hasta un 90 % dto. en entrada en caché)	Bajo (configuración, no arquitectura)	Muy bajo
Inferencia por lotes para trabajos fuera de línea	Medio (50 % dto. sobre Bajo demanda en la parte por lotes)	Medio (arquitectura basada en colas)	Muy bajo
Cambiar tráfico sostenido a Rendimiento provisionado	Medio para cargas de trabajo constantes	Medio (planificación de capacidad + compromiso)	Medio (reservar en exceso desperdicia dinero)
Reducir la longitud de los tokens de salida (prompts, modelado de respuestas)	Medio (recortar la salida es de 3 a 5 veces más barato que la entrada)	Bajo (ingeniería de prompts)	Bajo
Almacenar en caché salidas elegibles para Guardrails	Bajo a medio	Bajo	Muy bajo

Calculadora de precios de AWS Bedrock: previsión de su factura

La oficial Calculadora de precios de AWS admite Amazon Bedrock y es la herramienta adecuada para una primera previsión. Los campos que más importan:

Modelo y Región (las tarifas difieren entre regiones)
Tokens de entrada diarios y tokens de salida diarios (su modelo y modo de precio más utilizados)
Tamaño del almacén de vectores de Knowledge Bases y tasa de consultas
Evaluaciones de Guardrails por día
Volumen de generación de imágenes o vídeo, si procede

La advertencia honesta: la calculadora solo le muestra lo que AWS cobrará por los componentes que usted introduzca. No detecta los patrones que impulsan el gasto excesivo (modelos sobredimensionados, prompts sin caché, rendimiento reservado en exceso, Guardrails ejecutándose en cada entrada y cada salida).

Para una previsión real en una carga de trabajo real, instrumente primero la aplicación, mida durante una o dos semanas en Bajo demanda y realice la previsión a partir del uso observado. La calculadora es un punto de partida, no la respuesta definitiva.

Cuándo NO usar Bedrock

Vale la pena decirlo directamente porque nadie más lo escribe.

Bedrock ES la respuesta correcta cuando:

Desea acceso gestionado a múltiples modelos de vanguardia bajo una sola interfaz (Anthropic, Amazon Nova, Meta, Mistral, Cohere y otros sin gestionar relaciones con proveedores por separado).
Necesita integración nativa de AWS con el resto de su infraestructura (S3, Lambda, ECS, IAM, VPC, CloudWatch).
Le importan los controles de IAM, el aislamiento de VPC y el registro de auditoría de nivel AWS para el cumplimiento normativo.
La economía unitaria tiene sentido a su escala una vez que aplica el enrutamiento, el almacenamiento en caché y el modo de precio adecuado.

Bedrock NO es la respuesta correcta cuando:

Toda su carga de trabajo es un modelo específico con un volumen sostenido muy alto y puede ejecutarlo de forma más económica en otro lugar.
Ejecuta modelos de la familia Llama con una carga sostenida pesada (el alojamiento directo en Amazon EC2 con Inferentia o una plataforma de inferencia dedicada a menudo supera la economía de Bedrock).
Su caso de uso se ajusta a un modelo pequeño de código abierto y el autohospedaje en su propia infraestructura es significativamente más barato.
Su aplicación solo utiliza modelos de un único proveedor y acudir directamente a la API de ese proveedor resulta más rentable (a cambio, renuncia a la seguridad e integración nativas de AWS).

Bedrock optimiza la amplitud (muchos modelos, una interfaz), la gobernanza (controles de nivel AWS) y la facilidad de integración. Si esto es lo que le importa, Bedrock es la opción más sólida del mercado. Si no lo necesita, haga los cálculos con las alternativas antes de comprometerse.

Resultado real: cómo Groopview redujo el tiempo de respuesta del avatar de IA en un 80 % con el enrutamiento de modelo Dual-Nova

Groopview crea un avatar de coanfitrión de IA que procesa texto e imágenes durante transmisiones en vivo en tiempo real. El producto es sensible a la latencia de una manera que la mayoría de la IA empresarial no lo es: una respuesta lenta rompe la experiencia de redes sociales que el avatar debe facilitar.

La arquitectura anterior enrutaba cada interacción a través de un único modelo capaz. El tiempo de respuesta era de unos 12 segundos. Para un producto de transmisión en vivo, eso era demasiado lento para sentirse en tiempo real, y el coste del modelo por interacción era más alto de lo que la economía unitaria podía soportar a escala.

En Avahi reconstruimos la arquitectura en Amazon Bedrock utilizando un marco de orquestación Dual-Nova, enrutando cada solicitud a través de un clasificador que decide si la consulta es simple o compleja:

Las consultas simples (la mayor parte del tráfico) se enrutan a Amazon Nova Lite, el modelo más pequeño y económico.
Las consultas complejas se enrutan a Amazon Nova Pro, el modelo más grande y de mayor calidad.

La infraestructura: Amazon Bedrock (Nova Pro y Nova Lite), Amazon API Gateway, AWS Lambda, instancias de GPU Amazon EC2 g6e para el renderizado del avatar, Amazon S3, Amazon RDS y Amazon CloudWatch para la observabilidad.

El resultado:

El tiempo de respuesta del avatar de IA bajó de 12 segundos a unos 2,5 segundos para consultas simples (una reducción de la latencia del 80 %).
Las consultas complejas responden en unos 7 segundos.
Mayor retención de sesiones y nuevas fuentes de ingresos gracias a la mejora de la experiencia en tiempo real.
El coste por interacción disminuyó porque la mayoría del tráfico ahora utiliza el modelo más barato.

Este es el patrón de enrutamiento de modelos hecho realidad. El mismo producto, los mismos modelos disponibles, diferente elección arquitectónica sobre qué solicitud llega a qué modelo.

Lea el caso de estudio completo →

Dónde encaja la financiación de AWS

La parte que la mayoría de las guías de precios no pueden ofrecer.

Avahi es un AWS Premier Tier Services Partner y, a través de nuestra asociación con AWS, la prueba de concepto que demuestre su caso de costes en Bedrock puede ser financiada. Las empresas elegibles pueden recibir una PoC financiada dependiendo del proyecto, para que pueda modelar el coste real en su carga de trabajo real antes de comprometerse con una construcción completa.

La estructura que funciona: elija la carga de trabajo que está evaluando, defina el objetivo de coste, construya una PoC acotada frente a su tráfico real en Bedrock con la arquitectura de enrutamiento y almacenamiento en caché adecuada, mida la factura frente a la previsión y decida.

Comience con una PoC financiada →

Tome la decisión con Avahi

Bedrock es la plataforma de modelos gestionados más sólida del mercado para equipos que desean amplitud de modelos de vanguardia con controles nativos de AWS. La factura se convierte en un problema solo cuando los equipos usan por defecto el modelo más grande, dejan los prompts estáticos sin caché, reservan rendimiento en exceso y omiten la capa de enrutamiento que realiza el trabajo real de optimización de costes.

La forma de obtener una previsión de costes defendible no es una calculadora. Es una PoC acotada frente a su carga de trabajo real que demuestre que la estrategia de enrutamiento, almacenamiento en caché y aprovisionamiento funciona a su escala.

Empiece con una PoC financiada en su carga de trabajo de mayor volumen. Las empresas elegibles pueden recibir una PoC financiada dependiendo de su proyecto.

Preguntas frecuentes: Precios de AWS Bedrock

¿Cuánto cuesta obtener Bedrock?

No hay un coste fijo para empezar a utilizar AWS Bedrock (o Amazon Bedrock; el servicio se denomina de ambas formas). Usted habilita el servicio en su cuenta de AWS, solicita acceso a los modelos fundacionales que desea utilizar y paga solo por lo que procesa: por cada 1.000 tokens de entrada y salida para modelos de texto, por imagen para la generación de imágenes, por segundo para vídeo, más las tarifas por hora para cualquier rendimiento provisionado reservado. Un pequeño prototipo que utilice un modelo como Amazon Nova Lite o Claude 3.5 Haiku puede funcionar por unos pocos dólares al día. Una aplicación de producción puede oscilar entre cientos y muchos miles de dólares al mes, dependiendo del volumen y la elección del modelo.

¿Es gratuito AWS Bedrock?

Bedrock no es gratuito en el sentido en que Amazon S3 o AWS Lambda tienen niveles gratuitos en los que puede confiar para cargas de trabajo de producción. AWS ofrece periódicamente créditos y asignaciones de prueba para modelos específicos, y los proveedores de modelos individuales ocasionalmente promocionan periodos de evaluación. Para despliegues de producción, asuma que Bedrock es de pago desde la primera llamada. La forma correcta de evaluar antes de comprometerse es una prueba de concepto acotada, que puede ser parcial o totalmente financiada por AWS para empresas elegibles.

¿Es caro Bedrock?

Bedrock no es categóricamente caro. Se vuelve caro de tres maneras predecibles: usando por defecto el modelo más grande para cada solicitud cuando la mayoría no lo necesitan, dejando grandes prompts estáticos sin caché y reservando rendimiento provisionado en exceso antes de que el tráfico sea estable. Los equipos que enrutan solicitudes simples a modelos pequeños, almacenan en caché el contexto repetido y permanecen en Bajo demanda hasta que el tráfico es predecible encuentran que los costes de Bedrock son razonables para lo que ofrecen. (Los hilos sobre precios de AWS Bedrock en Reddit muestran consistentemente los mismos tres modos de fallo: modelos sobredimensionados, prompts sin caché y rendimiento reservado en exceso). Las decisiones de arquitectura importan más que la lista de tarifas.

¿Para qué se utiliza AWS Bedrock?

AWS Bedrock es un servicio totalmente gestionado que le da acceso a modelos fundacionales de múltiples proveedores (Anthropic Claude, Amazon Nova, Meta Llama, Mistral, Stability AI, Cohere y otros) bajo una única API. Se utiliza para crear aplicaciones de IA generativa, incluyendo chatbots, sistemas RAG, procesamiento de documentos, generación de imágenes y vídeo, agentes y moderación de contenido, sin el trabajo de gestionar la infraestructura del modelo subyacente. Bedrock es la respuesta nativa de AWS a la pregunta de cómo utilizar modelos de vanguardia dentro de un entorno que cumpla con los requisitos de IAM, VPC y auditoría empresarial.

¿Cuánto cuesta Claude en Bedrock?

Los precios de Claude en AWS Bedrock siguen el patrón estándar de Bedrock: precio por cada 1.000 tokens de entrada y salida, donde la salida suele costar de 3 a 5 veces más que la entrada. Claude Sonnet 4.6 es la opción de mayor calidad y mayor coste en la gama actual. Claude 3.5 Haiku es la opción más rápida y económica para la mayoría de las tareas. Las tarifas exactas varían según la región y cambian a medida que Anthropic lanza nuevas versiones, por lo que siempre debe verificar la tarifa actual en la página oficial de precios de AWS Bedrock antes de realizar previsiones.

¿Qué es el precio del rendimiento provisionado de AWS Bedrock?

El rendimiento provisionado en Bedrock reserva capacidad dedicada en unidades de modelo, facturadas por hora por unidad independientemente de la utilización. Hay tres niveles de compromiso: sin compromiso (tarifa por hora más alta, cancelación en cualquier momento), compromiso de 1 mes (tarifa más baja) y compromiso de 6 meses (tarifa más baja). Cada modelo tiene su propia tarifa por unidad de modelo y sus propios ahorros por nivel de compromiso. El punto de equilibrio frente a Bajo demanda depende de la utilización sostenida; para cargas de trabajo predecibles de alto volumen suele ganar, para tráfico puntual o impredecible normalmente no.

Precios de AWS Bedrock Guardrails: ¿cuánto cuesta?

Bedrock Guardrails se facturan a 0,15 $ por cada 1.000 unidades de texto para evaluaciones de filtros de contenido en contenido de texto (más 0,00075 $ por imagen para contenido de imagen), según lo publicado en la página de precios de AWS Bedrock a partir de junio de 2026. El precio es por evaluación, por lo que si ejecuta Guardrails tanto en la entrada como en la salida de cada llamada al modelo, paga por ambas evaluaciones. Para aplicaciones de bajo volumen esto es trivial. Para despliegues de producción de alto volumen con grandes ventanas de contenido, Guardrails puede convertirse en una parte significativa de la factura total de Bedrock y vale la pena medirlo por separado.

¿Cómo funciona el precio de los LLM de AWS Bedrock?

El precio de los LLM de Bedrock tiene cuatro modalidades: bajo demanda (por cada 1.000 tokens de entrada y salida, sin compromiso), rendimiento aprovisionado (capacidad reservada por hora), inferencia por lotes (procesamiento asíncrono a aproximadamente la mitad de la tarifa bajo demanda) y caché de prompts (contexto de entrada en caché facturado a una fracción de las tarifas estándar, con hasta un 90 % de descuento). La mayoría de los despliegues en producción combinan tres de estas: bajo demanda para el tráfico en tiempo real, por lotes para el trabajo nocturno y caché de prompts en prefijos de prompts estáticos. El rendimiento aprovisionado entra en juego cuando el uso es grande, constante y predecible.

¿Puede Avahi ayudar a optimizar mi factura de AWS Bedrock?

Sí. Avahi es un AWS Premier Tier Services Partner que diseña y optimiza arquitecturas de IA generativa en AWS, incluyendo el enrutamiento de modelos, la caché de prompts, la migración a Batch y el rendimiento aprovisionado dimensionado correctamente. Gracias a nuestra colaboración con AWS, se puede financiar la prueba de concepto que demuestre el caso de costes. Las empresas que cumplan los requisitos pueden recibir una PoC financiada en función del proyecto, para que pueda modelar el ahorro real sobre su carga de trabajo real antes de comprometerse con una reconstrucción.

Ponte en contacto

Blog relacionado

29 de junio de 2026

Agentes de IA para empresas no técnicas: por dónde empezar

25 de junio de 2026

Infraestructura de IA gestionada para equipos de desarrollo reducidos: Cómo los equipos pequeños implementan IA en producción en AWS

24 de junio de 2026

Planificación de la capacidad de IA: cómo escalar en AWS sin chocar contra un muro

Explorar todas las soluciones