De la dependencia de GPT a la IA personalizada: cómo SupportXDR validó un LLM de seguridad más inteligente y rentable en AWS

Cliente

TrueIT LLC (SupportXDR)

Ubicación

West Fargo, Dakota del Norte

Industria

Servicios de TI / Seguridad gestionada / Ciberseguridad impulsada por IA

Servicios y tecnología

AWS Bedrock AWS Lambda AWS Step Functions Amazon S3 Amazon RDS Amazon SageMaker Claude Sonnet 4.5 Claude Haiku 4.5 Llama 3.3 70B DeepSeek R1 Hugging Face TRL LoRA/QLoRA Python Flask Supabase

Resumen del proyecto

TrueIT LLC, la empresa detrás de SupportXDR, una plataforma de ciberseguridad impulsada por IA, necesitaba determinar si los modelos fundacionales de AWS Bedrock podían igualar o superar el rendimiento del GPT de OpenAI para el análisis automatizado de incidentes de seguridad. Atrapada en una costosa dependencia de IA comercial, SupportXDR se asoció con Avahi para diseñar y ejecutar un riguroso marco de benchmarking multimodelo, seguido del ajuste fino de un LLM de seguridad personalizado mediante técnicas LoRA/QLoRA. El resultado fue un marco de evaluación de modelos reproducible y defendible, que abarcó seis modelos de IA y cinco dimensiones de rendimiento, proporcionando a SupportXDR la evidencia validada que necesitaba para acelerar su estrategia de salida al mercado en AWS Marketplace.

Acerca del cliente

TrueIT LLC es una empresa de servicios gestionados de TI y ciberseguridad con sede en West Fargo, Dakota del Norte, reconocida en la lista MSP 500. Su producto insignia, SupportXDR, es una plataforma de operaciones de seguridad impulsada por IA, construida en torno al motor de respuesta a incidentes AgentX IR. Con aproximadamente 35–51 empleados y unos 12 M$ de ingresos, TrueIT LLC presta servicio a clientes empresariales que confían en SupportXDR para automatizar la detección, investigación y respuesta ante amenazas a escala. La empresa opera en la intersección entre los servicios de seguridad gestionada y la IA aplicada, lo que convierte la calidad del modelo, el coste y la fiabilidad en preocupaciones de misión crítica.

El problema

La plataforma AgentX IR de SupportXDR se construyó sobre los modelos GPT de OpenAI para impulsar el análisis automatizado de incidentes de ciberseguridad. Aunque era eficaz, esta dependencia conllevaba un conjunto creciente de riesgos: aumento de los costes de la API, control limitado sobre el comportamiento del modelo y ausencia de una vía clara hacia una capacidad de IA propia y optimizada para el dominio. A medida que SupportXDR empezó a posicionarse para AWS Marketplace, mantenerse en una pila de IA comercial de terceros suponía un cuello de botella estratégico.

La pregunta central que la dirección necesitaba responder era sencilla, pero técnicamente exigente: ¿podían los modelos de AWS Bedrock, incluidas opciones de vanguardia como Claude y Llama, rendir con calidad a nivel de GPT en tareas reales de investigación de seguridad y con un coste total menor? Sin una evaluación rigurosa y comparable, cualquier decisión de migración sería una conjetura. Una mala elección de modelo desplegada en producción podría erosionar la precisión, la calidad del razonamiento y la resistencia a las alucinaciones de las que dependen los clientes empresariales de seguridad.

Más allá de la selección del modelo, la ambición a largo plazo de SupportXDR era construir y comercializar un LLM de seguridad ajustado finamente, adaptado a su taxonomía de incidentes y a sus flujos de trabajo de respuesta específicos. Sin resultados validados que demostraran que un modelo personalizado podía superar a alternativas comerciales de propósito general, no existía una vía creíble para convertir esa capacidad en producto ni presentarla como un diferenciador ante compradores empresariales.

Si no se abordaba, SupportXDR seguiría atada a OpenAI con costes crecientes, sin una alternativa validada en AWS y sin una base para construir o comercializar un modelo de IA de seguridad propietario, paralizando por completo su estrategia de salida al mercado en AWS Marketplace.

Por qué AWS

AWS proporcionó la infraestructura ideal tanto para las fases de benchmarking como de ajuste fino de este proyecto. AWS Bedrock ofrecía acceso directo a un catálogo seleccionado de modelos fundacionales de alto rendimiento —incluidas las familias Claude de Anthropic y Llama de Meta— a través de una única API unificada, eliminando la sobrecarga de gestionar endpoints de modelos dispares. Esto permitió realizar comparaciones consistentes y controladas entre modelos dentro de un único entorno cloud.

Además del acceso a modelos, el ecosistema más amplio de servicios de AWS —Lambda, Step Functions, S3, RDS y SageMaker— permitió a Avahi construir un pipeline totalmente automatizado y escalable de evaluación y ajuste fino sin tener que ensamblar herramientas de terceros. Ejecutar toda la carga de trabajo dentro del propio entorno de AWS de SupportXDR también abordó las preocupaciones de sensibilidad de datos, manteniendo los datos de incidentes de seguridad fuera de infraestructuras de terceros y dentro de un perímetro cloud gobernado y auditable.

Por qué TrueIT LLC eligió Avahi

Avahi aportó una combinación poco común de profundidad técnica en AWS y experiencia en IA aplicada que les convirtió en el socio adecuado para un proyecto tan especializado. Diseñar un marco de benchmarking de LLM creíble, lo suficientemente riguroso como para respaldar decisiones internas de migración y pruebas externas de cara al cliente, requería más que habilidades de arquitectura cloud. Exigía experiencia en metodología de evaluación, técnicas de ajuste fino y la capacidad de traducir los datos de rendimiento del modelo en una estrategia de negocio accionable.

Lo que distinguió aún más a Avahi fue su capacidad para estructurar el proyecto en dos fases secuenciales, vinculadas metodológicamente y compartiendo el mismo marco de evaluación. Este enfoque permitió una verdadera comparación longitudinal de modelos, una estructura rara vez vista en proyectos con partners, y produjo resultados reproducibles, defendibles y directamente utilizables como evidencia de salida al mercado. El regreso de SupportXDR para un segundo proyecto es un reflejo directo de la confianza que Avahi se ganó en el primero.

Solución

Avahi diseñó y ejecutó un programa de evaluación de IA y desarrollo de modelos en dos fases, en el que cada fase se basaba directamente en la anterior.

  • Fase 1Benchmarking multimodelo Avahi diseñó una arquitectura de pipeline de benchmarking automatizado utilizando AWS Lambda y Step Functions como despachador de prompts, enrutando escenarios estandarizados de incidentes de ciberseguridad a través de cinco modelos fundacionales de forma simultánea. Las salidas de los modelos se almacenaron en S3 y RDS, y después se puntuaron con AWS SageMaker mediante métricas BLEU y de similitud coseno. Una interfaz de usuario personalizada en Flask proporcionó una comparación clara, lado a lado, haciendo que los resultados fueran accesibles tanto para partes interesadas técnicas como no técnicas. La rúbrica de evaluación puntuó cada modelo en cinco dimensiones —precisión factual, comprensión del incidente, capacidad de acción, claridad y evitación de alucinaciones— en una escala de 1 a 5 utilizando una metodología de LLM-como-juez.  
  • Fase 2Ajuste fino de un LLM de seguridad personalizado Basándose directamente en el marco de la Fase 1, Avahi aplicó técnicas de ajuste fino eficiente en parámetros LoRA/QLoRA para adaptar un modelo fundacional a la taxonomía específica de incidentes de ciberseguridad de SupportXDR. Utilizando un conjunto de datos curado de 50–100 ejemplos validados de incidentes de seguridad con salidas de referencia (ground truth), este enfoque evitó el reentrenamiento completo del modelo, comprimiendo lo que normalmente requeriría meses de trabajo de ML en una ventana de entrega de cuatro semanas. A continuación, el modelo ajustado finamente se sometió a benchmarking frente a los mismos seis modelos comerciales utilizando los mismos prompts, rúbrica y escenarios de la Fase 1, lo que permitió una comparación directa y longitudinal.
    Un riesgo crítico en la Fase 2 fue la calidad de los datos. El conjunto de datos inicial proporcionado contenía solo 11–12 ejemplos de incidentes en JSON, insuficientes para un ajuste fino fiable. Avahi mitigó esto estableciendo como requisito previo innegociable, antes de iniciar el trabajo, disponer de datos de incidentes de seguridad limpios y validados con salidas de referencia (ground truth), y enmarcando los resultados como benchmarks orientativos en lugar de umbrales de rendimiento garantizados.
    El benchmark completo de seis modelos abarcó Claude Sonnet 4.5, Claude Haiku 4.5, GPT-OSS 20B y 120B, Llama 3.3 70B y DeepSeek R1, incorporando un análisis de coste por token junto con la puntuación de calidad para ofrecer a SupportXDR una visión completa para decisiones de migración y comercialización.
    Todas las cargas de trabajo se ejecutaron dentro del propio entorno de AWS de SupportXDR, garantizando que los datos sensibles de incidentes de seguridad, incluidos archivos de casos CNC y de exploits, nunca salieran de un perímetro cloud gobernado.

Resultados clave

  • Pipeline automatizado de benchmarking multimodelo (AWS Lambda + Step Functions)
  • Interfaz de pruebas basada en Flask para comparación lado a lado de 5 modelos
  • Pipeline de puntuación impulsado por SageMaker (BLEU, similitud coseno)
  • Informe de comparación de modelos con análisis de coste/token
  • LLM de seguridad ajustado finamente con LoRA/QLoRA, entrenado con 50–100 ejemplos de incidentes específicos del dominio
  • Matriz de puntuación multidimensional (5 criterios, 6 modelos, rúbrica 1–5)
  • Metodología de evaluación LLM-como-juez y rúbrica
  • Informe final de benchmarking y resumen ejecutivo
  • Hoja de ruta recomendada de migración de modelos para el posicionamiento en AWS Marketplace

Impacto del proyecto

Avahi entregó un marco de benchmarking reproducible y multidimensional que proporcionó a SupportXDR evidencia defendible y respaldada por datos para apoyar tanto decisiones internas de migración como pruebas externas de cara al cliente. Al validar que un LLM de seguridad ajustado finamente podía competir con y, en dimensiones concretas, superar a modelos fundacionales comerciales, el proyecto eliminó el principal bloqueo técnico y estratégico que se interponía entre SupportXDR y una estrategia de salida al mercado creíble en AWS Marketplace.

La reutilización del marco es uno de sus resultados más duraderos. Dado que la Fase 1 y la Fase 2 compartieron los mismos prompts, escenarios y rúbricas de puntuación, los resultados son directamente comparables a lo largo del tiempo —una capacidad poco habitual en proyectos con partners— que SupportXDR puede seguir aprovechando a medida que los modelos evolucionen y su plataforma escale.

 

Resultados destacados:

  • Seis modelos fundacionales evaluados en cinco dimensiones de rendimiento puntuadas dentro de un único marco de evaluación unificado
  • Ajuste fino LoRA/QLoRA completado en aproximadamente 4 semanas, un proceso que normalmente requiere meses de desarrollo de ML
  • Ajuste fino logrado con tan solo 50–100 ejemplos de incidentes de seguridad específicos del dominio, demostrando una alta eficiencia de datos
  • Se elaboró un análisis de coste por token para los seis modelos, lo que permitió una comparación directa del ROI frente al gasto actual en OpenAI
  • Todos los datos sensibles de incidentes de seguridad se procesaron íntegramente dentro del propio entorno de AWS de SupportXDR — cero exposición de datos a terceros
  • SupportXDR volvió para un segundo proyecto, validando la calidad y el valor de negocio de los resultados de la Fase 1

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita