Automatización a escala: Cómo Avahi desarrolló un flujo de moderación de contenido de vídeo de modalidad dual para Amara Social

Cliente

Amara Social

Ubicación

Nashua, Nuevo Hampshire

Industria

Plataforma de gestión de redes sociales

Servicios y tecnología

Amazon S3 AWS Lambda Amazon Transcribe Amazon Bedrock (Nova Pro) Amazon Rekognition Amazon DynamoDB Amazon API Gateway Amazon CloudWatch AWS IAM

Resumen del proyecto

Amara Social es una plataforma de gestión de redes sociales que ayuda a marcas y creadores a automatizar la publicación de contenidos, realizar un seguimiento de la interacción y obtener información sobre el rendimiento en diversos canales. Ante el rápido crecimiento del volumen de contenido generado por los usuarios, Amara Social se enfrentó a una brecha crítica: la falta de una forma automatizada de detectar y eliminar contenido de vídeo inseguro o que infringiera las políticas. Avahi diseñó y entregó un flujo de moderación de contenidos totalmente sin servidor (serverless) y nativo de AWS que analiza simultáneamente tanto las dimensiones de audio como las visuales de cada vídeo subido. El resultado fue un sistema de moderación escalable y preciso que no registró falsos positivos durante las pruebas, proporcionando a Amara Social una ruta clara y basada en evidencias para pasar de la revisión manual a la moderación automatizada a escala.

Acerca del cliente

Amara Social es una plataforma de gestión de redes sociales con sede en Nashua, Nuevo Hampshire, que permite a las marcas y a los creadores de contenido escalar su presencia social mediante la publicación automatizada de contenidos, el seguimiento de la interacción y el análisis de rendimiento multiplataforma. A medida que crecían la base de usuarios y el volumen de contenidos de Amara Social, también lo hacía la complejidad de mantener su plataforma segura, conforme a las normas y fiable para los creadores y las audiencias que dependen de ella.

El problema

A medida que la plataforma de Amara Social escalaba, una carencia crítica se volvió imposible de ignorar: la ausencia de cualquier proceso automatizado para detectar y eliminar contenido dañino, inseguro o que infringiera las políticas subido por los usuarios. La revisión manual era el único mecanismo de moderación existente, y la revisión manual no puede seguir el ritmo de la velocidad del contenido generado por usuarios a escala.

Los riesgos de la inacción eran significativos y multidimensionales. El contenido dañino, que abarca desde imágenes explícitas hasta lenguaje amenazante o discriminatorio en el audio, podía llegar a las audiencias antes de que cualquier revisor humano tuviera la oportunidad de actuar. Esto creaba una exposición real en tres dimensiones: la confianza del usuario, el cumplimiento de las normas de la comunidad y el riesgo regulatorio. Los anunciantes y los socios de la plataforma exigen cada vez más estándares demostrables de seguridad de contenidos, y un solo fallo de moderación de alto perfil puede causar un daño reputacional duradero.

El reto se complicaba aún más por la doble naturaleza del contenido de vídeo. Las dimensiones visual y de audio requieren enfoques de análisis completamente distintos, y no existe una única herramienta que aborde ambas. Construir una solución que pudiera operar en ambas modalidades, a escala, en tiempo real, sin generar falsos positivos que penalizaran incorrectamente a creadores legítimos, era un problema de ingeniería nada trivial que requería tanto experiencia en IA como un diseño arquitectónico cuidadoso.

Por qué AWS

AWS ofrecía el único ecosistema en la nube con servicios de IA maduros y listos para producción que abarcaban las tres capacidades necesarias: transcripción de audio, inferencia con modelos de lenguaje de gran tamaño y visión por computador, cada una disponible como servicio gestionado que podía componerse en una única canalización automatizada. En lugar de crear o ajustar modelos personalizados, Amara Social podía aprovechar servicios nativos de AWS que Amazon mejora y mantiene de forma continua, reduciendo la carga operativa a largo plazo.

La naturaleza sin servidor de AWS Lambda, combinada con desencadenadores basados en eventos de S3 y la escalabilidad de Amazon Transcribe, Bedrock y Rekognition, permitía que la arquitectura escalara de forma elástica con el volumen de contenido, algo crítico para una plataforma en la que la actividad de carga es impredecible. Amazon DynamoDB y CloudWatch completaban la pila con almacenamiento estructurado de resultados y observabilidad integrada, proporcionando una solución totalmente integrada y con costes transparentes, sin la sobrecarga de gestionar infraestructura.

Por qué Amara Social eligió a Avahi

Avahi es un socio de nivel Premier de AWS con una profunda experiencia en el diseño y la entrega de flujos de IA nativos de la nube para requisitos de producción del mundo real. Amara Social necesitaba algo más que un proveedor que pudiera poner en marcha servicios de AWS; necesitaba un socio capaz de diseñar una solución de IA multiservicio, desarrollar una lógica de prompts matizada para un modelo de lenguaje de gran tamaño y entregar un sistema lo suficientemente preciso como para servir de base para un despliegue de producción completo.

Avahi aportó un enfoque estructurado y consciente de los riesgos al proyecto. Antes de escribir una sola línea de código, Avahi realizó una evaluación de modelos para identificar Amazon Bedrock Nova Pro como el LLM más adecuado para la moderación de transcripciones frente a las seis categorías de contenido objetivo de Amara Social. Avahi también integró una estrategia formal de respaldo en el plan de trabajo: si los resultados de Bedrock resultaban inconsistentes, se sustituiría por Amazon Comprehend, un nivel de ingeniería de riesgos en la entrega que protegió directamente la inversión de Amara Social y garantizó el éxito del proyecto independientemente del comportamiento del LLM.

Solución

Avahi creó en AWS una canalización de moderación de contenido de vídeo totalmente sin servidor y basada en eventos que analiza automática y simultáneamente las dimensiones visual y de audio del contenido de vídeo generado por usuarios. El flujo de trabajo se activa en el momento en que Amara Social sube un vídeo a un bucket designado de Amazon S3; una notificación de evento de S3 se dispara al instante e invoca la función de AWS Lambda que orquesta toda la canalización a partir de ese momento.

Para la moderación de audio, Lambda invoca a Amazon Transcribe para convertir la pista de audio del vídeo en una transcripción estructurada en inglés. Esa transcripción se pasa luego a Amazon Bedrock (Nova Pro) con una plantilla de prompts diseñada específicamente para las seis categorías de contenido dañino de Amara Social: blasfemia y lenguaje ofensivo, discurso de odio, comentarios discriminatorios, amenazas de muerte y violencia, expresiones de autolesión y amenazas descriptivas vagas. Bedrock devuelve un resultado de moderación estructurado que incluye las frases marcadas, sus marcas de tiempo, categorías de contenido, puntuaciones de confianza y explicaciones en lenguaje sencillo, lo que permite a los revisores comprender no solo qué se marcó, sino por qué.

La plantilla de prompts personalizada de Bedrock fue la decisión técnica más significativa desde el punto de vista estratégico en el proyecto. Los modelos tradicionales de clasificación de PNL no pueden detectar de forma fiable contenido dañino con matices contextuales; los sistemas basados en reglas suelen pasar por alto las amenazas vagas y el lenguaje de autolesión que evita palabras clave explícitas. Al diseñar un prompt estructurado para un LLM generativo, Avahi proporcionó una capacidad de moderación de texto que opera a nivel de comprensión contextual, sin entrenamiento de modelos, sin conjuntos de datos etiquetados y sin infraestructura adicional, todo dentro del cronograma del proyecto y con un coste basado únicamente en la inferencia.

Para la moderación visual, Lambda extrae fotogramas de vídeo a intervalos definidos y envía cada fotograma a Amazon Rekognition para su análisis por visión artificial. Rekognition evalúa cada fotograma en busca de desnudez y contenido sexual, armas y violencia, y símbolos ofensivos, devolviendo indicadores a nivel de fotograma con puntuaciones de confianza.

Todos los resultados de moderación (indicadores de audio, indicadores de fotogramas visuales y hallazgos agregados a nivel de categoría) se escriben en Amazon DynamoDB como un registro JSON estructurado por vídeo, con las transcripciones sin procesar y las imágenes de los fotogramas almacenadas en S3. Amazon CloudWatch captura registros, métricas y datos de consumo de tokens a lo largo de todo el flujo, proporcionando una visibilidad operativa completa y transparencia de costes. El informe completo de moderación por vídeo es accesible mediante programación a través de un endpoint de API REST basado en Amazon API Gateway, lo que permite a Amara Social integrar los resultados de moderación directamente en los flujos de trabajo de su plataforma.

Resultados clave

Flujo de transcripción de audio totalmente funcional a través de Amazon Transcribe con resultados almacenados en Amazon DynamoDB
Moderación de transcripciones a través de Amazon Bedrock Nova Pro con una plantilla de prompts personalizada dirigida a seis categorías de contenido dañino
Muestreo y análisis de fotogramas visuales a través de Amazon Rekognition que cubre desnudez, armas, violencia y símbolos ofensivos
Orquestación de AWS Lambda que conecta los tres servicios de IA en un único flujo de trabajo automatizado
Gestión de errores para transcripciones faltantes, llamadas fallidas a Rekognition y formatos de vídeo no compatibles
Estimación y supervisión de costes a través de métricas de Amazon CloudWatch
Resultados de moderación estructurados almacenados en DynamoDB (cifrados en reposo) con transcripciones sin procesar e imágenes de fotogramas en S3
Endpoint de API REST de demostración pública (Amazon API Gateway) para pruebas del flujo en vivo
Informe final de entrega que incluye el diagrama de arquitectura, documentación de entrada/salida, resultados de costes y resumen del rendimiento del flujo

Impacto del proyecto

Avahi entregó una canalización de moderación de contenidos de nivel de producción y de doble modalidad que proporciona a Amara Social la base automatizada y escalable necesaria para proteger su plataforma a medida que crece el volumen de contenido. La canalización cubre 10 categorías de contenido dañino en las dimensiones de audio y visual, procesando automáticamente cada vídeo subido sin que sea necesaria ninguna intervención manual para iniciar el análisis.

Lo más importante es que las pruebas validaron la precisión del enfoque de moderación de transcripciones impulsado por Bedrock
con un resultado que aborda directamente el riesgo de mayor importancia en la moderación de contenidos:

Cero falsos positivos registrados durante las pruebas: ningún contenido de creadores legítimos fue marcado incorrectamente
10 categorías de contenido dañino detectadas en las modalidades auditiva y visual en un único flujo automatizado
Tres servicios de IA de AWS (Transcribe, Bedrock, Rekognition) unificados bajo la orquestación de Lambda en un solo flujo de trabajo sin servidor
Modelo de coste basado solo en inferencia para la moderación de transcripciones basada en LLM: no se requiere inversión en entrenamiento de modelos ni en conjuntos de datos etiquetados
Estrategia formal de respaldo integrada en la entrega: eliminó por completo el riesgo de ejecución y protegió la inversión del cliente

¿Listo para transformar su negocio con la IA?

Exploremos juntos sus oportunidades de IA de alto impacto en una sesión gratuita