Cómo Nonstop Health automatizó la atención a miembros con un agente de voz de IA desarrollado en AWS

Cliente

Nonstop Health

Ubicación

Concord, CA

Industria

FinTech

Servicios y tecnología

Lambda, EC2, X-Ray, CloudWatch, IAM, CloudTrail, Bedrock, DynamoDB, S3, ECR, AWS Connect.

Resumen del proyecto

Nonstop Health es una empresa de administración de beneficios sanitarios y servicios de seguros que ofrece cobertura asequible desde el primer dólar para organizaciones con 50 o más empleados. Las operaciones de atención a miembros de la empresa estaban sobrecargadas por aproximadamente 30.000 tickets de soporte anuales y tiempos de espera que habían alcanzado hasta 60 minutos durante períodos de alto volumen, mientras que su sistema IVR existente solo podía gestionar un único tipo de consulta. Avahi diseñó y entregó un agente de voz impulsado por IA integrado con Amazon Connect, aprovechando Amazon Bedrock (Anthropic Claude), AWS Lambda, Amazon DynamoDB y una base de datos vectorial ChromaDB en Amazon EC2 para automatizar consultas rutinarias de miembros en cuatro categorías de llamadas. La solución proporciona a los miembros respuestas inmediatas en lenguaje natural a preguntas sobre reclamaciones, estado de tarjetas y cuentas, requisitos de justificación e información general del plan, reduciendo la carga sobre los agentes en vivo y estableciendo una base escalable para la deflexión continua de llamadas.

Acerca del cliente

Nonstop Health, con sede en Concord, California, es un proveedor de administración de beneficios sanitarios y servicios de seguros fundado en 2012. La misión de la empresa es hacer que la atención sanitaria de alta calidad sea accesible y asequible, partiendo de la convicción de que las comunidades prosperan cuando la atención está disponible antes y siempre que se necesite ayuda. El modelo de cobertura desde el primer dólar de Nonstop Health reduce las primas de los empleadores en un promedio del 8 al 10 % mientras elimina los gastos de bolsillo de los empleados en atención sanitaria. Al servir a organizaciones de todo el país, incluidas organizaciones sin ánimo de lucro, distritos escolares y empleadores de tamaño mediano, Nonstop Health proporciona administración integral de beneficios a través de portales propietarios para miembros y clientes, herramientas de informes financieros y datos de reclamaciones en tiempo real, y servicios dedicados de atención a miembros respaldados por una tarjeta de beneficios Visa precargada.

El problema

El equipo de servicios a miembros de Nonstop Health gestionaba aproximadamente 30.000 tickets de soporte anuales, con la mayoría concentrados durante el período pico de inscripción de enero a abril. Durante períodos de alto volumen, agravados por limitaciones de personal, los tiempos de espera de los miembros habían alcanzado hasta 60 minutos, muy por encima del objetivo del equipo de menos de 60 segundos. El sistema IVR existente de la empresa estaba limitado a un único tipo de consulta, verificaciones de saldo, y realizaba esta función de manera inexacta, obligando a los miembros a esperar a un agente en vivo incluso para las consultas más rutinarias.

Las consultas de los miembros se dividían en tres categorías principales: procesamiento y estado de reclamaciones de reembolso, verificación y justificación de transacciones con tarjeta de beneficios Visa, y preguntas generales sobre cuentas y tarjetas, incluidas consultas de saldo, rechazos de tarjetas y solicitudes de reemplazo. Una cuarta categoría más amplia incluía preguntas generales sobre qué es Nonstop Health y cómo funciona su programa, un punto frecuente de confusión para los miembros que confundían Nonstop Health con su proveedor de seguros.

Agravando estos desafíos, la organización carecía de una base de conocimientos centralizada. Los agentes operaban como generalistas, dependiendo de sesiones de formación repetidas y escalaciones en tiempo real a través de chat interno para mantener la coherencia en sus respuestas. Sin un repositorio estructurado de respuestas, la presión para lograr la resolución en la primera llamada era alta, pero las herramientas para respaldar este objetivo eran inadecuadas. Si no se abordaban, estas limitaciones continuarían erosionando la experiencia del miembro durante los períodos en que más se necesitaba el soporte.

Por qué AWS

Nonstop Health ya operaba infraestructura central en AWS, incluidos AWS Lambda para procesamiento backend, Amazon ECS para cargas de trabajo en contenedores, Amazon S3 para almacenamiento, Amazon CloudFront para entrega de contenido, Amazon Bedrock (Anthropic Claude) para respuestas impulsadas por IA y Amazon GuardDuty para monitorización de seguridad. Construir la solución de agente de voz en AWS permitió al equipo ampliar esta inversión existente en lugar de introducir una plataforma separada, garantizando una integración perfecta con el entorno establecido y la postura de seguridad de la empresa.

Amazon Connect proporcionó un punto de entrada natural para el agente de voz, ofreciendo una plataforma de centro de contacto nativa en la nube con telefonía integrada, capacidades IVR e integración directa con AWS Lambda para procesamiento de IA en tiempo real. Combinado con Amazon Bedrock para IA generativa, Amazon Lex para reconocimiento de voz a texto y Amazon DynamoDB para almacenamiento de conversaciones sin servidor, AWS ofreció una arquitectura predominantemente sin servidor, con Amazon EC2 alojando la base de datos vectorial ChromaDB, que minimizó la sobrecarga operativa mientras proporcionaba la escalabilidad necesaria para gestionar volúmenes pico de inscripción.

Por qué Nonstop Health eligió a Avahi

Nonstop Health seleccionó a Avahi como su socio de entrega basándose en la profunda experiencia de Avahi como socio consultor de AWS especializado en soluciones de IA generativa. Avahi aportó experiencia directa en el diseño e implementación de agentes conversacionales impulsados por IA en AWS, con una metodología probada para entrega rápida a través de ciclos de sprint estructurados. Esto fue fundamental para Nonstop Health, que necesitaba una solución funcional validada por equipos internos dentro de un cronograma comprimido.

El enfoque de Avahi combinó profundidad técnica con colaboración práctica. En lugar de entregar un marco genérico de chatbot, Avahi trabajó directamente con los equipos de servicios a miembros, producto e ingeniería de Nonstop Health a través de puntos de contacto semanales para diseñar una solución específica adaptada a los patrones específicos de consultas de miembros de la empresa, requisitos de autenticación y lógica de flujo de llamadas. Avahi también se comprometió con un modelo integral de transferencia de conocimientos y soporte posterior al proyecto, garantizando que el equipo interno de Nonstop Health pudiera mantener y evolucionar el sistema de forma independiente después de la entrega.

Solución

Avahi diseñó y entregó un agente de voz de IA orientado a miembros para desviar llamadas entrantes rutinarias y reducir la carga de trabajo de los agentes. La solución se centró en cuatro categorías de llamadas: consultas sobre reclamaciones, preguntas sobre tarjetas y cuentas, solicitudes de justificación e información general. La arquitectura aprovechó servicios gestionados y sin servidor de AWS orquestados a través de Amazon Connect como interfaz de voz.

Arquitectura y componentes principales

El sistema se construyó en torno a cinco funciones AWS Lambda específicas, cada una gestionando una responsabilidad distinta: clasificación de consultas y generación de respuestas (el Lambda del agente), autenticación de miembros, activación de bot de Amazon Lex, gestión de contador de llamadas y procesamiento de incrustación de documentos. Amazon Lex V2 proporcionó conversión de voz a texto al inicio del flujo de llamadas, mientras que Amazon Connect gestionó la interfaz de telefonía, enrutamiento de llamadas y salida de texto a voz.

Amazon Bedrock impulsó tanto las capas de inteligencia como de recuperación de conocimientos de la solución. Anthropic Claude sirvió como modelo de lenguaje grande para clasificación de consultas y generación de respuestas en lenguaje natural, configurado con ajustes deterministas para clasificación (temperatura 0) y creatividad moderada para respuestas orientadas a miembros (temperatura 0,5). Amazon Bedrock Titan Embeddings V2 generó representaciones vectoriales de 1.024 dimensiones tanto de consultas de miembros como de documentos de la base de conocimientos, permitiendo búsqueda de similitud semántica.

Recuperación de conocimientos y búsqueda vectorial

La base de conocimientos se gestionó a través de una base de datos vectorial ChromaDB implementada en una instancia Amazon EC2 dentro de la VPC del proyecto. Un pipeline automatizado de ingesta de datos procesó documentos PDF y datos de perfil de usuario JSON cargados en Amazon S3, extrayendo texto, dividiendo el contenido en segmentos de 500 caracteres con superposición de 50 caracteres para preservación de contexto, generando incrustaciones vectoriales a través de Bedrock Titan y almacenándolas en colecciones ChromaDB. Los documentos de preguntas frecuentes se almacenaron en una colección compartida, mientras que los datos personales de miembros se aislaron en colecciones por usuario siguiendo una convención de nomenclatura que impedía el acceso a datos entre usuarios.

Cuando un miembro hacía una pregunta, el Lambda del agente generaba una incrustación de la consulta, realizaba una búsqueda de similitud vectorial contra la colección ChromaDB apropiada (preguntas frecuentes o personal), recuperaba los principales resultados, aplicaba un umbral de confianza (distancia L2 ≤ 1,9) y pasaba los fragmentos de documentos más relevantes como contexto a Claude para la generación de respuestas. Las consultas con puntuaciones de confianza insuficientes activaban una transferencia a un agente en vivo en lugar de entregar una respuesta de baja calidad.

Autenticación y seguridad

Para consultas de cuentas personales que requerían acceso autenticado, el sistema recopilaba tres puntos de datos por voz: fecha de nacimiento, código postal y últimos cuatro dígitos del número de Seguro Social. El Lambda de autenticación validaba estas entradas contra registros de miembros almacenados en S3, con hasta tres intentos permitidos antes de transferir a un agente en vivo. AWS Bedrock Guardrails proporcionó una capa adicional de seguridad de contenido, filtrando entradas en busca de violencia, discurso de odio, contenido sexual, mala conducta e intentos de inyección de prompts antes de que las consultas llegaran al modelo de lenguaje.

La arquitectura de red implementó aislamiento VPC con subredes públicas y privadas en dos zonas de disponibilidad. Las funciones Lambda operaban en subredes privadas con acceso a gateway NAT, comunicándose con la instancia EC2 de ChromaDB a través de IP privada. Los endpoints VPC proporcionaron conectividad privada a servicios AWS, incluidos Bedrock, DynamoDB, CloudWatch y S3, garantizando que los datos sensibles nunca atravesaran Internet pública. Todos los datos en reposo se cifraron utilizando AES-256 en DynamoDB, S3 y CloudWatch Logs.

Gestión de conversaciones y flujo de llamadas

El historial de conversaciones se almacenó en Amazon DynamoDB con un tiempo de vida configurable de 30 días, permitiendo interacciones multiturnos conscientes del contexto dentro de una única sesión de llamada. El sistema mantuvo las últimas cinco interacciones por sesión, permitiendo a Claude hacer referencia a preguntas y respuestas anteriores al generar respuestas. Después de cada respuesta, el sistema presentaba un menú de tonos táctiles que daba a los miembros la opción de hacer otra pregunta, finalizar la llamada, transferir a un agente en vivo o escuchar la respuesta repetida.

La capa de clasificación distinguía entre preguntas generales de preguntas frecuentes respondidas directamente desde la base de conocimientos compartida, preguntas de cuentas personales que requerían autenticación y recuperación de datos específicos del miembro, y consultas fuera de alcance que solicitaban reformulación o transferencia a agente. La ingeniería de prompts se refinó iterativamente basándose en comentarios de pruebas de usuarios finales, incluida la adición de un prompt de reconocimiento («Permítame investigar eso por usted») para reducir el retraso percibido en la respuesta, y el ajuste del umbral de aislamiento de voz de 0,6 a 1,0 segundos para capturar mejor el fraseo natural.

Enfoque de implementación

El proyecto se ejecutó en cuatro sprints. El Sprint 1 entregó clasificación de consultas, el pipeline de ingesta de datos e incrustaciones, y funciones Lambda de enrutamiento. El Sprint 2 produjo la primera demostración funcional, mostrando el flujo completo de Amazon Connect con capacidades de autenticación, respuesta a preguntas frecuentes y transferencia a agente. El Sprint 3 se centró en pruebas de usuarios finales realizadas con dos equipos internos de Nonstop Health durante dos semanas, generando comentarios iterativos que impulsaron el refinamiento de prompts y mejoras en la experiencia del usuario. El sprint final abordó errores identificados durante el aseguramiento de calidad, entregó la sesión de transferencia de conocimientos y completó todas las entregas de documentación e infraestructura como código.

Resultados clave

Agente de voz de IA completamente funcional integrado con Amazon Connect, gestionando cuatro categorías de consultas de miembros (reclamaciones, tarjeta/cuenta, justificación e información general)
Cinco funciones AWS Lambda específicas para clasificación de consultas, generación de respuestas, autenticación de miembros, activación de bot Lex y procesamiento de incrustación de documentos
Pipeline automatizado de ingesta de datos que procesa documentos PDF y perfiles de usuario JSON desde S3 en colecciones vectoriales ChromaDB
Flujo de autenticación de voz de tres factores (fecha de nacimiento, código postal, últimos cuatro dígitos del SSN) con lógica de reintento configurable
Tabla de historial de conversaciones de Amazon DynamoDB con TTL de 30 días para interacciones multiturnos conscientes del contexto
Módulos de infraestructura como código Terraform para aprovisionamiento de VPC, EC2, DynamoDB, IAM y Lambda
Documentación técnica integral que cubre arquitectura, configuraciones Lambda, ingeniería de prompts, seguridad y gestión de errores
Manual de operaciones con guías de solución de problemas y procedimientos de operaciones diarias
Sesión de transferencia de conocimientos que cubre todos los componentes AWS, lógica de flujo de Connect, configuración de ChromaDB y monitorización
Configuración de observabilidad AWS CloudWatch y X-Ray para registro, rastreo y diagnóstico de latencia
Código fuente entregado a través de repositorio Bitbucket

Impacto del proyecto

El proyecto entregó con éxito un agente de voz de IA completamente funcional capaz de gestionar consultas de miembros en las cuatro categorías de llamadas objetivo, con capacidades de autenticación, recuperación de conocimientos y transferencia a agente operativas y validadas por equipos internos. El sistema procesa consultas con una latencia de respuesta del modelo de 3 a 4 segundos utilizando Anthropic Claude, abordando el volumen anual de 30.000 tickets de soporte a miembros de la organización. La solución estableció una base escalable para la deflexión de llamadas durante períodos de alto volumen, cuando los tiempos de espera históricamente han alcanzado hasta 60 minutos, proporcionando a los miembros acceso inmediato a respuestas para preguntas rutinarias sobre estado de reclamaciones, saldos de tarjetas, requisitos de justificación e información general del plan.

El proyecto se completó con cobertura integral de pruebas, incluida validación de pipeline, pruebas de aceptación de usuarios finales con dos equipos internos de Nonstop Health y aseguramiento de calidad formal. La entrega completa incluyó refinamiento iterativo de umbrales de aislamiento de voz, lógica de clasificación de consultas e ingeniería de prompts basándose en comentarios directos de servicios a miembros. Tras la implementación, el equipo técnico de Nonstop Health recibió la propiedad completa de todo el código, documentación y módulos de infraestructura como código, con una ventana de soporte de 14 días hábiles por correo electrónico y Slack para garantizar una transición fluida a operaciones independientes.

Métricas

~30.000 tickets anuales de soporte a miembros abordados por el volumen objetivo de la solución
Hasta 60 minutos de tiempos de espera históricos durante períodos de alto volumen objetivo de deflexión
4 categorías de llamadas automatizadas: reclamaciones, tarjeta/cuenta, justificación, información general
5 funciones Lambda específicas para la arquitectura de la solución
3 a 4 segundos de latencia promedio de respuesta del modelo
11 documentos de base de conocimientos ingeridos con 25 a 26 preguntas de prueba para validación de clasificación
Más de 35 issues de Jira completados en 4 sprints
2 equipos de pruebas internos participaron en pruebas de aceptación de usuarios finales
2 errores identificados y resueltos durante el aseguramiento de calidad formal
30 días de TTL configurable para retención de datos de historial de conversaciones
14 días hábiles de período de soporte posterior al proyecto incluidos

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita