De Datadog a CloudWatch: cómo Sequoia Capital eliminó una factura de observabilidad de seis cifras sin perder ni una sola alerta

From Datadog to CloudWatch: How Sequoia Capital Eliminated a Six-Figure Observability Bill Without Losing a Single Alert
Cliente

Sequoia Capital

Ubicación

Menlo Park, California

Industria

Servicios financieros / Capital riesgo

Servicios y tecnología

Amazon CloudWatch Logs Amazon CloudWatch Metrics & Alarms Amazon SNS Amazon ECS on AWS Fargate AWS IAM Fluent Bit / FireLens Terraform / Infraestructura como código

Resumen del proyecto

Sequoia Capital es una de las firmas de capital riesgo más reconocidas del mundo y gestiona una compleja infraestructura de AWS para dar soporte a sus operaciones de ingeniería. A pesar de utilizar Datadog para la monitorización de la infraestructura y la agregación de registros, el uso real de Sequoia se limitaba a alertas básicas de umbral de CPU y memoria y al reenvío de registros, una funcionalidad que entra perfectamente dentro de las capacidades de los servicios nativos de AWS. Ante el plazo de renovación de su contrato, Sequoia contrató a Avahi para migrar su pila de observabilidad de Datadog a Amazon CloudWatch en tres entornos de AWS, eliminando costes innecesarios de terceros y manteniendo una cobertura de monitorización completa. El resultado fue una migración limpia, gestionada íntegramente mediante IaC y completada antes de la fecha límite de renovación, lo que proporcionó al equipo de Sequoia una solución de observabilidad auditable, fácil de mantener y rentable de la que son propietarios absolutos.

Acerca del cliente

Sequoia Capital es una firma de capital riesgo líder a nivel mundial con sede en Menlo Park, California, con décadas de experiencia respaldando a empresas tecnológicas transformadoras en todas las etapas de crecimiento. Su equipo de ingeniería gestiona la infraestructura basada en AWS que sustenta las operaciones internas y externas, ejecutando cargas de trabajo contenedorizadas en Amazon ECS sobre AWS Fargate en múltiples entornos.

El problema

El equipo de ingeniería de Sequoia Capital utilizaba Datadog como plataforma de observabilidad para la monitorización de infraestructuras y la agregación de registros. En la práctica, sin embargo, su uso era limitado: alertas de umbral de CPU y memoria, y reenvío de registros. Las capacidades más avanzadas de Datadog (paneles de control, trazas APM, monitores sintéticos de tiempo de actividad y detección de anomalías) no se utilizaban en absoluto.
A medida que se acercaba la renovación anual de Datadog, la dirección de Sequoia reconoció un claro desajuste entre lo que pagaban y lo que realmente utilizaban. Los propios servicios de observabilidad nativos de AWS —Amazon CloudWatch Logs y CloudWatch Alarms— son totalmente capaces de gestionar la misma carga de trabajo a un coste significativamente menor. Seguir renovando la suscripción a Datadog significaba pagar un sobreprecio por una sofisticada plataforma de terceros para realizar un trabajo que su entorno de AWS actual podía gestionar de forma nativa.
El reto no era simplemente una decisión de costes. Era una decisión operativa. Sequoia necesitaba ejecutar la migración con la precisión suficiente para garantizar que no hubiera brechas de monitorización durante la transición en tres entornos de AWS independientes (desarrollo, preproducción y producción), todo ello antes de la fecha límite de renovación de mediados de noviembre. Cualquier fallo en la cobertura de alertas durante la transición podría haber dejado a su equipo a ciegas ante problemas críticos de infraestructura en producción. También necesitaban una salida limpia: eliminar todas las configuraciones específicas de Datadog del código fuente y que su equipo estuviera totalmente capacitado para poseer y mantener la nueva solución de forma independiente.

Por qué AWS

La infraestructura de Sequoia Capital ya era totalmente nativa de AWS y ejecutaba cargas de trabajo contenedorizadas en Amazon ECS sobre Fargate. El paso lógico era consolidar la observabilidad dentro del mismo ecosistema en lugar de seguir dependiendo de una herramienta de terceros para funciones que AWS ofrece de forma nativa. Amazon CloudWatch proporciona agregación de registros centralizada, alertas basadas en métricas y enrutamiento de notificaciones, cubriendo exactamente las funciones de monitorización que Sequoia requería, con una estructura de costes que escala con el uso en lugar de una suscripción empresarial fija.
Al pasar a CloudWatch, Sequoia también obtuvo una integración más estrecha con su entorno de AWS existente, eliminó la dependencia de terceros en su pila operativa y garantizó que su infraestructura de monitorización pudiera gestionarse y reproducirse a través de los mismos flujos de trabajo de Terraform que ya utilizaban para todo lo demás.

Por qué Sequoia eligió a Avahi

Avahi es un socio de nivel Premier de AWS con una profunda experiencia en infraestructura nativa de AWS, migraciones e infraestructura como código. Sequoia necesitaba un socio que pudiera actuar con rapidez, trabajar directamente en sus repositorios de Terraform existentes y ejecutar una migración sin interrupciones frente a un plazo fijo, sin margen para fallos de monitorización en producción.
Avahi aportó una metodología de migración estructurada específicamente adaptada a este tipo de transición: un enfoque de auditoría de monitores y mapeo de alarmas uno a uno que eliminó las conjeturas al catalogar cada monitor activo de Datadog y recrearlo como un equivalente exacto en CloudWatch. Este proceso basado en la precisión, combinado con la filosofía de implementación de Avahi centrada en IaC, dio a Sequoia la confianza de que no se perdería nada en la transición y de que cada cambio sería totalmente auditable y mantenible por su propio equipo tras la entrega.

Solución

Avahi ejecutó la migración en cuatro fases secuenciales, diseñadas para validar cada capa de la pila de observabilidad antes de avanzar al siguiente entorno.
Fase 1 – Inicio y descubrimiento: Avahi obtuvo acceso a las cuentas de AWS de Sequoia, a los repositorios de Terraform y a las configuraciones activas de los monitores de Datadog. Se inventariaron todas las fuentes de registros en desarrollo, preproducción y producción, y se estableció un plan de migración estructurado con hitos claros para la transición de cada entorno.
Fase 2 – Migración del flujo de registros: Avahi evaluó las configuraciones existentes de Fluent Bit y FireLens de Sequoia, que reenviaban los registros de los contenedores a Datadog, y rediseñó la arquitectura de registros utilizando Amazon CloudWatch Logs. Se establecieron nuevos grupos de registros con convenciones de nomenclatura y políticas de retención definidas para todas las aplicaciones y entornos, incluidos los registros del sitio web público. Se actualizaron las definiciones de tareas de ECS y las plantillas de IaC para redirigir todos los registros a CloudWatch, verificando su integridad en desarrollo antes de implementarlos en preproducción y producción.
Fase 3 – Migración de monitorización y alertas: Avahi realizó una auditoría completa de cada monitor activo de Datadog, documentando los valores de umbral, los periodos de evaluación, los recursos afectados y los destinatarios de las notificaciones. Cada monitor se mapeó uno a uno con una alarma de CloudWatch equivalente con condiciones de activación idénticas, eliminando el riesgo de umbrales mal configurados o brechas en la cobertura. Las alarmas se implementaron a través de Terraform empezando por desarrollo, con temas de Amazon SNS configurados para enrutar las alertas a los canales de Slack y listas de distribución de correo electrónico existentes de Sequoia. La funcionalidad de las alarmas se validó simulando condiciones de activación antes de su despliegue en preproducción y producción.
Fase 4 – Transición y desmantelamiento: Se desarrolló y ejecutó un manual de procedimientos (runbook) formal para la transición a producción. Para mitigar el riesgo de una brecha en la monitorización, ambos sistemas funcionaron en paralelo durante una breve ventana de validación en entornos que no eran de producción antes del cambio final a producción. Una vez que se confirmó que el registro y las alertas de CloudWatch eran operativos al 100 % en los tres entornos, se eliminaron todas las configuraciones específicas de Datadog del código fuente.

Resultados clave

  • Grupos de registros de CloudWatch establecidos para todas las aplicaciones y entornos (desarrollo, preproducción, producción), incluidos los registros del sitio web público, con convenciones de nomenclatura y ajustes de retención definidos
  • Configuración de Terraform/IaC actualizada que refleja el nuevo flujo de registros completo
  • Integridad de los registros confirmada en todas las fuentes en CloudWatch
  • Alarmas de CloudWatch configuradas en los tres entornos, cubriendo todas las métricas monitorizadas anteriormente con umbrales equivalentes
  • Temas de Amazon SNS operativos con notificaciones de canales de Slack y suscripciones de correo electrónico verificadas, incluyendo pruebas de alertas de test exitosas
  • Definiciones de IaC actualizadas para todas las alarmas y el enrutamiento de notificaciones
  • Manual de procedimientos de transición a producción documentando todos los pasos realizados
  • Eliminación de todas las configuraciones específicas de Datadog de los repositorios de código

Impacto del proyecto

Sequoia Capital finalizó con éxito su contrato con Datadog antes de la fecha límite de renovación, eliminando por completo el coste de la suscripción recurrente. La migración proporcionó una cobertura de monitorización y alertas equivalente utilizando servicios nativos de AWS, sin lagunas en la visibilidad durante ni después de la transición. Dado que cada cambio se implementó como código dentro de los repositorios de Terraform existentes de Sequoia, la nueva pila de observabilidad es totalmente reproducible, auditable y propiedad exclusiva de su equipo de ingeniería.
El marco de migración desarrollado por Avahi (auditoría de monitores, mapeo de alarmas uno a uno, implementación centrada en IaC y despliegue secuenciado por entornos) es directamente reutilizable, y el equipo de Sequoia está ahora totalmente capacitado para escalar y mantener su pila de observabilidad de CloudWatch de forma independiente.

  • 3 entornos de AWS (desarrollo, preproducción, producción) migrados por completo sin brechas de monitorización
  • 100 % de los monitores de Datadog catalogados y recreados como alarmas de CloudWatch equivalentes
  • Todas las fuentes de registros redirigidas con éxito a CloudWatch Logs antes de la fecha límite de renovación
  • 0 dependencias de Datadog restantes en el código fuente tras la transición
  • Coste de suscripción a Datadog eliminado antes de la renovación anual

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita