Democratizar el acceso a los datos: cómo Avahi creó en AWS un motor NL2SQL seguro, impulsado por GenAI, para eliminar los cuellos de botella de SQL

Cliente

Confidencial

Ubicación

Palo Alto, California

Industria

Plataforma de salud mental / Analítica de datos / Herramientas internas de BI

Servicios y tecnología

Amazon Bedrock (Claude, Nova, Titan Embeddings) · Amazon Athena · Amazon S3 · AWS Glue · AWS Lambda · Amazon ECS Fargate · PostgreSQL + pgvector · Amazon CloudWatch · sqlglot (validación de AST)

Resumen del proyecto

Un cliente confidencial es una plataforma líder de salud mental en línea que presta servicio a millones de usuarios en todo el mundo con apoyo emocional, terapia y asesoramiento bajo demanda. A medida que la plataforma crecía, sus equipos internos de analítica se vieron desbordados por un cuello de botella crítico: los usuarios de negocio no técnicos (product managers, analistas y personal de operaciones) no tenían forma de acceder de manera independiente a los amplios conjuntos de datos almacenados en el data lake de la empresa basado en AWS sin involucrar a un ingeniero de datos. Cada insight requería escribir SQL, y esa dependencia estaba ralentizando la toma de decisiones en toda la organización.

Avahi diseñó y entregó en AWS un motor de Natural Language to SQL (NL2SQL) de nivel producción, impulsado por IA, que permite a cualquier usuario consultar conjuntos de datos complejos usando inglés sencillo. La solución combina los modelos de lenguaje de gran tamaño de Amazon Bedrock, una arquitectura de Retrieval-Augmented Generation (RAG) y una capa de validación de SQL basada en AST para generar automáticamente consultas de Athena precisas, optimizadas en coste y seguras. El resultado es un sistema totalmente privado, desplegado internamente, que democratiza el acceso a los datos, reduce la carga de ingeniería y mejora la productividad analítica en toda la organización.

Acerca del cliente

El cliente es una plataforma líder de tecnología de salud mental que conecta a personas que buscan apoyo emocional con oyentes formados, terapeutas y consejeros a través de un servicio digital accesible y bajo demanda. Con millones de usuarios activos a nivel global, la plataforma opera en un entorno intensivo en datos que realiza el seguimiento de la interacción de los usuarios, la calidad de las sesiones, el rendimiento de la plataforma y los resultados clínicos. Los equipos internos de la organización, desde producto hasta ingeniería y operaciones, dependen en gran medida de los datos para tomar decisiones informadas, por lo que un acceso fiable y oportuno a la analítica es una necesidad empresarial fundamental.

El problema

El cliente había acumulado un data lake grande y en crecimiento en AWS S3, que impulsaba la inteligencia de negocio crítica en toda la plataforma. Pero la capacidad de extraer valor de esos datos estaba bloqueada tras una barrera técnica: SQL. Cada solicitud de datos —por simple que fuera— debía canalizarse a través de un ingeniero de datos, creando un cuello de botella persistente que retrasaba los insights y llevaba la capacidad de ingeniería al límite.

Los usuarios no técnicos, incluidos product managers y analistas de negocio, no tenían forma de autoservirse para cubrir sus necesidades de datos. Se veían obligados a alternar entre conversaciones con stakeholders y colas de ingeniería, a menudo esperando horas o días para obtener respuestas a preguntas que deberían haber llevado minutos. El efecto acumulativo era una fricción organizativa: decisiones de producto más lentas, menor agilidad operativa y una brecha creciente entre la disponibilidad de los datos y su utilización.

Más allá del acceso, el equipo afrontaba riesgos reales en torno a la precisión y el coste de las consultas. Athena factura por los datos escaneados, lo que significa que consultas ineficientes o sin poda podían inflar rápidamente los costes en la nube. También existía una preocupación de seguridad: cualquier sistema que permitiera a los usuarios interactuar con la infraestructura de datos de producción necesitaba barreras estrictas para evitar operaciones destructivas, accidentales o no. Sin una capa de consultas validada y consciente del coste, abrir el acceso a los datos a no ingenieros conllevaba un riesgo operativo significativo.

Si no se abordaban, estos retos habrían seguido tensionando los recursos de ingeniería, reduciendo la productividad analítica y dejando datos valiosos infrautilizados, limitando la capacidad del cliente para tomar decisiones rápidas e informadas a escala.

Por qué AWS

El cliente ya estaba profundamente invertido en el ecosistema de AWS, con su data lake construido sobre Amazon S3 y las cargas de trabajo de consulta ejecutándose a través de Amazon Athena. AWS proporcionaba la base natural para ampliar esa infraestructura con una capa de consultas impulsada por IA sin introducir dependencias externas ni riesgo de salida de datos. La amplitud del porfolio de IA/ML de AWS, en particular el acceso gestionado de Amazon Bedrock a modelos de lenguaje de frontera y a modelos de embeddings Titan, permitió al equipo construir un sistema GenAI sofisticado sin tener que desplegar y mantener su propia infraestructura de modelos.

AWS también aportó a la solución su cualidad más importante e innegociable: la privacidad. Con todo el cómputo, el almacenamiento y la inferencia de IA ejecutándose dentro de una VPC privada —accesible solo mediante VPN a través de un Application Load Balancer interno— el cliente pudo ofrecer a sus equipos consultas de datos en lenguaje natural sin exponer ningún dato ni infraestructura a internet pública. Para una plataforma de salud mental que opera bajo estrictos requisitos de sensibilidad de datos, esta arquitectura no era opcional; era esencial.

Por qué el cliente eligió a Avahi

Como partner de AWS de nivel premier, Avahi aportó la rara combinación de una profunda experiencia en ingeniería cloud-native y experiencia práctica construyendo sistemas de IA de nivel producción. El cliente necesitaba algo más que un proveedor familiarizado con modelos de lenguaje: necesitaba un socio capaz de diseñar un pipeline GenAI de extremo a extremo que cumpliera requisitos estrictos de precisión, seguridad, coste y escalabilidad. El historial de Avahi entregando soluciones complejas en AWS con resultados de negocio medibles la convirtió en la opción adecuada para un proyecto sin margen de error.

Lo que distinguió a Avahi fue su capacidad para anticipar y diseñar en torno a los modos de fallo inherentes del SQL generado por LLM. En lugar de limitarse a conectar un modelo de lenguaje a un motor de consultas, Avahi diseñó un pipeline multifase de validación y autocorrección que transformó el sistema de un prototipo a una herramienta lista para producción. La experiencia del equipo en arquitectura RAG, semántica SQL y despliegue nativo de AWS dio al cliente la confianza de que la solución sería inteligente y fiable desde el primer día.

Solución

Avahi diseñó y entregó en AWS un motor GenAI NL2SQL totalmente integrado que toma la pregunta en lenguaje natural de un usuario y devuelve un resultado SQL preciso, optimizado y explicable, todo dentro de una infraestructura segura y privada. El sistema se basa en un pipeline multifase que combina el razonamiento del modelo de lenguaje, la recuperación semántica, la validación basada en AST y la autocorrección automática para producir resultados fiables a escala.

El pipeline comienza en el momento en que un usuario envía una consulta en lenguaje natural a través de la interfaz tipo chat. Antes de llegar a cualquier componente de IA, la consulta pasa por una capa de cribado de seguridad previa al LLM que comprueba intentos de inyección o intenciones inseguras. Una vez validada, la consulta se vectoriza usando el modelo de embeddings Titan v2 de Amazon Bedrock. Estos embeddings se utilizan para realizar una búsqueda semántica contra una base de datos PostgreSQL con pgvector, que almacena metadatos del esquema y ejemplos SQL few-shot curados. Este enfoque de Retrieval-Augmented Generation (RAG) proporciona al modelo de lenguaje el contexto exacto del esquema y los patrones de consulta que necesita para generar SQL preciso, reduciendo drásticamente las alucinaciones.

Con el esquema y los ejemplos recuperados, se ensambla un prompt estructurado que incluye las definiciones de tablas relevantes, las relaciones entre columnas, el contexto histórico de consultas de la sesión del usuario y los ejemplos few-shot. Este prompt se envía a un modelo Claude o Nova a través de Amazon Bedrock, que genera una consulta SQL. El SQL generado no se ejecuta de inmediato; primero se analiza y valida usando sqlglot, una biblioteca de análisis de SQL basada en AST. Este paso de validación comprueba la corrección sintáctica, impone acceso de solo lectura (solo SELECT) y bloquea cualquier operación DDL o DML que pudiera alterar o dañar los datos. También verifica que se aplique la poda de particiones a las consultas de Athena, controlando directamente los costes de escaneo de datos.

Si la validación falla, el sistema no muestra un error al usuario; en su lugar, activa un bucle automático de autocorrección. El error de validación y el SQL original se devuelven al LLM con contexto adicional, solicitando un reintento. Este bucle mejora significativamente la fiabilidad de las consultas sin requerir intervención humana. Para las consultas marcadas como potencialmente de alto coste en función del volumen de escaneo estimado, el sistema presenta un paso de confirmación al usuario antes de la ejecución, añadiendo una capa final de conciencia de costes.

Una vez que una consulta validada se ejecuta contra Amazon Athena, los resultados se devuelven al usuario junto con una explicación en lenguaje natural de lo que recuperó la consulta, cerrando el ciclo para usuarios no técnicos que quizá no interpreten con soltura datos tabulares en bruto. Todo el sistema se ejecuta en ECS Fargate, con microservicios Flask que gestionan la capa de API y una aplicación de página única servida por nginx como frontend. AWS Glue mantiene el catálogo de datos, una función de AWS Lambda impulsa el pipeline de ingesta del esquema que mantiene los embeddings actualizados, y Amazon CloudWatch proporciona observabilidad completa en toda la pila. Toda la infraestructura se despliega en una VPC privada sin endpoints públicos, accesible exclusivamente a través de un ALB interno mediante VPN.

Resultados clave

Motor de consultas NL2SQL impulsado por Amazon Bedrock (modelos Claude / Nova)
Sistema de prompts basado en RAG con recuperación de ejemplos few-shot y conocimiento del esquema mediante embeddings Titan v2 y pgvector
Motor de validación de SQL basado en AST (sqlglot) con aplicación de solo SELECT y bloqueo de DDL/DML
Pipeline automatizado de ingesta del esquema mediante AWS Lambda para la sincronización del esquema en tiempo real
Interfaz de usuario tipo chat con seguimiento de sesión y contexto del historial de consultas
Mecanismo de bucle de feedback para la mejora continua del modelo y del prompt
Detección de consultas de alto coste y flujo de confirmación del usuario
Bucle de reintento del LLM con autocorrección para la reparación automática de consultas
Despliegue totalmente privado en AWS: VPC privada, ALB interno, acceso solo por VPN, autorización de servicios basada en IAM
Pila de observabilidad mediante Amazon CloudWatch para monitorización, registro y alertas

Impacto del proyecto

El motor NL2SQL cambió de forma fundamental la manera en que el cliente interactúa con sus datos. Los usuarios de negocio —product managers, analistas y equipos de operaciones— ahora pueden consultar directamente el data lake de la empresa usando inglés sencillo, sin escribir una sola línea de SQL ni depender de ingeniería. La democratización del acceso a los datos ha eliminado un cuello de botella persistente del flujo de trabajo analítico de la organización, liberando a los ingenieros de datos para centrarse en trabajo de mayor valor y permitiendo una toma de decisiones más rápida y autónoma entre equipos.

Más allá del acceso, el sistema ofrece mejoras medibles en la calidad de las consultas y la eficiencia operativa. La combinación de recuperación de esquema basada en RAG, validación AST y autocorrección ha reducido significativamente las tasas de fallo de las consultas y los reintentos posteriores. La generación de consultas con conocimiento de particiones controla los costes de escaneo de datos de Athena al garantizar que las consultas estén optimizadas antes de la ejecución, reduciendo directamente el gasto en infraestructura. El sistema es totalmente de nivel producción, está protegido frente a operaciones destructivas y está diseñado para escalar.

Resultados de un vistazo:

Reducción del tiempo para generar y obtener insights de datos: de colas de ingeniería de varias horas a autoservicio en tiempo real
Reducción de fallos y reintentos de consultas mediante validación AST multifase y autocorrección del LLM
Reducción de los costes de escaneo de datos de Athena mediante la aplicación de la poda de particiones integrada en cada consulta generada
Mejora de la productividad analítica en los equipos de negocio, producto y operaciones
Habilitación de un acceso seguro a datos en lenguaje natural, de nivel producción, sin exposición de infraestructura pública
Arquitectura escalable aplicable a cualquier empresa con un data lake en la nube y consumidores de datos no técnicos

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita