Priority Software pasa de operaciones reactivas a proactivas con la observabilidad de New Relic en AWS

Cliente

Priority Software

Ubicación

India

Industria

ERP basado en la nube (SaaS)

Servicios y tecnología

AmazonEC2, Amazon RDS, Amazon ElastiCache, AWS Lambda, Amazon CloudFront, Amazon CloudWatch, Amazon EBS, Amazon S3

Resumen del proyecto

Priority Software opera una plataforma ERP basada en la nube que presta servicio a miles de clientes empresariales en todo el mundo. A medida que su huella de SaaS crecía, su equipo de operaciones se enfrentaba a una visibilidad fragmentada, alertas ruidosas y una respuesta lenta a los incidentes que a menudo comenzaba solo después de que los clientes informaban de los problemas. Avahi, un socio de nivel Premier de AWS, implementó New Relic en el entorno AWS multirregional de Priority utilizando un despliegue por fases que mejoró la visibilidad de la infraestructura, la calidad de las alertas y la resolución de problemas centralizada. El resultado fue una detección y resolución más rápidas, menos falsas alarmas, una mayor disponibilidad y ganancias medibles en costes y eficiencia.

Acerca del cliente

Priority Software gestiona una plataforma ERP basada en la nube para clientes empresariales de todo el mundo, que soporta una operación SaaS a gran escala con múltiples entornos (desarrollo, preproducción y producción) y una amplia huella de AWS que abarca varias regiones.

El problema

A medida que la plataforma de Priority escalaba, su modelo operativo se volvió cada vez más reactivo. El equipo a menudo se enteraba de los problemas a través de los tickets de soporte al cliente, lo que significaba que los incidentes ya estaban afectando a los usuarios finales antes de que el equipo de ingeniería pudiera responder.

También carecían de una visión unificada en desarrollo, preproducción y producción. Las señales críticas estaban dispersas en varios sistemas, lo que dificultaba comprender rápidamente qué estaba sucediendo, dónde y si era un problema aislado o sistémico.

Las alertas eran otro obstáculo importante. Las alarmas de CloudWatch eran ruidosas y frecuentemente ignoradas, creando una fatiga de alertas que aumentaba el riesgo de pasar por alto incidentes reales. La planificación de la capacidad era igualmente reactiva, lo que llevaba a eventos de escalado de emergencia y un estrés innecesario para el equipo.

Finalmente, el análisis posterior a los incidentes era lento e inconsistente porque los registros estaban dispersos. Sin un registro centralizado y una correlación entre métricas y registros, el equipo dedicaba demasiado tiempo a reconstruir cronologías y a identificar las causas raíz. A la escala de Priority (127 instancias EC2, 18 bases de datos RDS y 12 balanceadores de carga de aplicaciones en tres regiones de AWS), estas deficiencias se agravaron rápidamente y amenazaron la fiabilidad, la confianza del cliente y la eficiencia operativa.

Por qué AWS

La plataforma ERP de Priority se ejecutaba en AWS para dar soporte a una base de clientes global con una arquitectura multirregional y una combinación de servicios gestionados y de infraestructura, incluyendo Amazon EC2, Amazon RDS, balanceadores de carga de aplicaciones, AWS Lambda, Amazon ElastiCache y Amazon CloudFront. AWS proporcionó la flexibilidad para escalar los recursos a medida que cambiaba la demanda, manteniendo patrones de despliegue consistentes en todos los entornos.

AWS también permitió una telemetría operativa profunda a través de métricas y registros de servicios nativos, lo que hizo posible implementar una estrategia de observabilidad integral que pudiera abarcar las capas de computación, bases de datos, redes y entrega en desarrollo, preproducción y producción.

Por qué Priority Software eligió a Avahi

Priority contrató a Avahi cuando este comenzó a gestionar su infraestructura de AWS en el tercer trimestre de 2025, buscando un socio que pudiera mejorar la madurez operativa sin interrumpir los sistemas de producción. Como socio de nivel Premier de AWS, Avahi aportó la experiencia en operaciones en la nube necesaria para estandarizar la monitorización y la respuesta a incidentes en una huella de AWS grande y distribuida.

Avahi estaba excepcionalmente cualificado para liderar este esfuerzo porque el desafío no era simplemente «añadir más monitorización», sino que requería diseñar un enfoque operativo integral. Esto incluía establecer líneas de base, implementar alertas por niveles para reducir el ruido, centralizar los registros para un análisis más rápido de la causa raíz e integrar las alertas directamente en los flujos de trabajo existentes de Priority a través de Jira Service Management y Slack.

Solución

Avahi implementó New Relic en toda la huella de AWS de Priority utilizando un enfoque por fases para impulsar la adopción rápidamente, reducir el riesgo y aumentar constantemente el valor.

En las dos primeras semanas, Avahi se centró en la visibilidad de la infraestructura. Se instalaron agentes de monitorización en todas las instancias EC2 para capturar señales de salud y rendimiento a nivel de host. Paralelamente, Avahi configuró la integración de la API de AWS para que New Relic pudiera ingerir telemetría de servicios gestionados en todo el entorno. Con esta base establecida, Avahi creó paneles iniciales adaptados para el equipo de operaciones, proporcionando un panel de control único para el desarrollo, la preproducción y la producción.

En las dos semanas siguientes, Avahi implementó alertas inteligentes. En lugar de depender de umbrales excesivamente sensibles, Avahi estableció métricas de rendimiento de referencia y luego configuró alertas por niveles (Crítica, Alta, Media) alineadas con la gravedad operativa. Las alertas se integraron con Jira Service Management y Slack, lo que permitió la creación automatizada de tickets y notificaciones en tiempo real para que el equipo pudiera responder de forma rápida y consistente.

Avahi también abordó la velocidad de resolución de problemas centralizando los registros. Se implementó Fluent Bit para la agregación de registros y los registros de CloudWatch se conectaron a New Relic. Esto permitió la correlación entre métricas y registros, lo que permitió a los ingenieros pasar directamente de una alerta a los registros y eventos relacionados para un diagnóstico más rápido.

En la fase final, Avahi se centró en la optimización operativa y la mejora continua. Se ampliaron los paneles para servir a múltiples partes interesadas (ejecutivos, operaciones y desarrolladores), se ajustaron las alertas basándose en patrones del mundo real para reducir aún más el ruido, y se identificaron oportunidades de optimización de costes a través de la visibilidad de uso basada en datos. La estrategia de monitorización también reforzó mejores prácticas operativas, incluida la importancia del etiquetado y la expansión incremental de la cobertura para evitar abrumar a los equipos al principio de la adopción.

Los principales servicios de AWS incluidos en el alcance fueron Amazon EC2, Amazon RDS (PostgreSQL y MySQL), Elastic Load Balancing (Application Load Balancers), Amazon ElastiCache, AWS Lambda, Amazon CloudFront y Amazon CloudWatch (incluidos los registros de CloudWatch), con cobertura de monitorización que se extendía a las señales de almacenamiento y rendimiento, como las métricas de Amazon EBS y Amazon S3, cuando correspondía.

Resultados clave

Agentes de monitorización de New Relic implementados en todas las instancias EC2
Integraciones de la API de AWS configuradas para la ingesta de telemetría de servicios gestionados
Paneles unificados para la visibilidad de desarrollo, preproducción y producción
Métricas de rendimiento de referencia establecidas para la precisión del umbral de alerta
Políticas de alerta por niveles implementadas (Crítica, Alta, Media)
Integración con Jira Service Management para la creación automatizada de tickets de incidentes
Integración con Slack para notificaciones de incidentes en tiempo real
Fluent Bit implementado para el reenvío centralizado de registros
Registros de CloudWatch conectados a New Relic para la consolidación de registros
Correlación de métricas a registros habilitada para un análisis más rápido de la causa raíz
Paneles específicos para las partes interesadas entregados (ejecutivos, operaciones, desarrolladores)
Proceso continuo de ajuste de alertas y recomendaciones de optimización operativa
Resultados de optimización de costes y recomendaciones de dimensionamiento entregados
Tres sesiones de capacitación y habilitación para el equipo de Priority

Impacto del proyecto

Con la observabilidad unificada implementada, Priority pasó de la resolución reactiva de problemas a operaciones proactivas. Los problemas se detectaron en cuestión de minutos, la mayoría de los incidentes se identificaron antes de que los clientes los notaran, y el tiempo de investigación se redujo drásticamente debido a los registros centralizados y la correlación entre las fuentes de telemetría. Las mejoras fortalecieron directamente la fiabilidad de la plataforma, al tiempo que generaron eficiencias tangibles y ahorros de costes para el negocio.

Métricas

El tiempo medio de detección mejoró de 15 a 30 minutos a 2 a 3 minutos (85 % más rápido)
El tiempo medio de resolución se redujo de 2 a 4 horas a 30 a 45 minutos (70 % más rápido)
El 90 % de los incidentes se detectaron antes de que los clientes los reportaran
Las falsas alertas disminuyeron del 35 % al 8 %
El tiempo de inactividad mensual se redujo de 3,6 horas a 0,57 horas (reducción del 84 %)
La disponibilidad mejoró del 99,5 % al 99,92 % (+0,42 puntos porcentuales)
Los problemas reportados por los clientes disminuyeron de 12 a 15 por mes a 6 a 7 por mes (reducción del 50 %)
Se identificaron 6000 $ al mes en oportunidades de dimensionamiento
Se detectaron 23 instancias sobreaprovisionadas
Se eliminaron 15 horas semanales de tareas de monitorización manual
Se redujo el tiempo de investigación de falsas alarmas en un 60 %
El NPS mejoró de 42 a 58

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita